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本 书 介绍 了 神经 网 络 的 基本 结构 和 学 习 规 则 ， 重 点 是 对 这 些 神经 网 络 的 数学 分 析 、 训 练 
方法 和 神经 网 络 在 模式 识别 、 信 和 号 处 理 以 及 控制 系统 等 工程 实践 问题 中 的 应 用 。 

本 书 尽力 用 清晰 和 一 致 的 方式 来 组 织 材料 ， 以 易于 阅读 和 使 用 。 对 每 个 讨论 的 主题 ， 使 
用 大 量 例题 来 阐明 。 

由 于 这 是 一 本 关于 神经 网 络 设计 的 书 ， 因 此 在 选择 主题 时 我 们 依据 了 两 个 原则 : 首先 ， 
尽量 采用 最 实用 的 神经 网 络 结构 、 学 习 规 则 和 训练 方法 ; 其次， 尽量 保证 该 书 的 完整 性 ， 使 
读者 从 一 章 到 下 一 章 的 学 习 感 党 流畅 。 为 此 ， 在 特定 主题 前 ， 都 会 有 一 些 相关 的 介绍 性 材料 
和 应 用 数学 基础 的 章节 。 总 之 ， 在 我 们 选择 的 主题 中 ， 某 些 部 分 在 神经 网 络 实际 应 用 中 极其 
重要 ， 而 男 一 些 部 分 对 解释 神经 网 络 如 何 运 算 十 分 有 用 。 

书 中 省 去 了 很 多 本 来 可 以 收入 的 主题 。 比 如 ,我们 并 没有 把 书写 成 有 关 所 有 已 知 神经 网 
络 结构 和 学 习 规则 的 分 类 和 纲要， 而 是 集中 介绍 一 些 基本 概念 。 其 次 ,我 们 没有 讨论 神经 网 
络 的 实现 技术 ， 比 如 说 VLSI 实现、 光学 器 件 实现 和 并 行 计 算 机 实现 等 。 另 外 ， 我 们 也 没有 
深入 阐述 神经 网 络 的 生物 学 和 心理 学 基础 。 上 述 内 容 昌 然 重要 ， 但 本 书 并 不 包含 这 些 内 容 ， 
因为 我 们 希望 能 集中 力量 把 我 们 认为 在 神经 网 络 设计 中 对 读者 最 重要 的 主题 曾 述 清楚 。 

本 书 是 为 高 年 级 本 科 生 或 一 年 级 研究 生 编写 的 半 学 期 导论 性 课程 教材 (也 适 于 作 短期 教 
程 、 自 学 或 参考 用 书 )。 和 希望 读者 有 一 定 的 线性 代数 、 概 率 论 和 微分 方程 的 基础 知识 。 

本 书 每 一 章 都 分 为 以 下 各 节 : 目的 、 理 论 和 实例 、 小 结 、 例 题 、 结 束 语 、 参 考 文献 和 习 
题 。 理 论 和 实例 部 分 是 各 章 的 主体 部 分 ， 包 括 基 本 思想 的 发 展 和 实例 。 小 结 部 分 列 出 了 一 些 
重要 的 公式 和 概念 ， 以 利于 将 本 书 作 为 实际 工作 的 参考 。 每 章 大 约 三 分 之 一 的 篇 幅 是 例题 部 
分 ， 这 一 部 分 给 出 了 所 有 关键 概念 的 详细 例题 。 

后 面 的 图 说 明了 各 章 之 间 的 相互 关系 。 

第 1 章 到 第 6 章 获 盖 了 其 余 各 章 所 需要 的 基本 概念 。 第 1 章 是 绪论 部 分 ， 简单 介绍 历 
史 背 景 和 一 些 基本 生物 学 知识 。 第 2 章 介绍 基本 的 神经 网 络 结构 。 全 书 都 使 用 这 一 章 给 出 的 
标记 方法 。 第 3 章 描述 一 个 简单 的 模式 识别 问题 ， 并 说 明 怎 样 用 三 种 不 同类 型 的 神经 网 络 可 
以 求解 。 这 三 种 网 络 是 本 书 所 述 其 余 神 经 网 络 类 型 的 代表 。 另 外 ， 所 引入 的 模式 识别 问题 也 
为 全 书 提供 了 一 个 实验 的 主线 。 

本 书 的 许多 重点 是 在 使 神经 网 络 能 完成 各 种 任务 的 训练 方法 上 。 第 4 章 介绍 学 习 算法 ， 
并 给 出 第 一 个 实用 算法 (感知 机 学 习 规则 )。 虽 然 感 知 机 网 络 存在 一 些 基 本 的 局 限 性 ,但 它 
有 其 自身 的 历史 重要 性 ， 并 且 对 于 导 人 某 些 关键 概念 也 是 十 分 有 用 的 工具 ， 这 些 概念 将 要 用 
于 其 后 各 章 讨 论 功能 更 加 强大 的 网 络 中 。 

本 书 的 主要 目的 是 解释 神经 网 络 的 基本 工作 原理 。 为 此 ， 我 们 将 结合 神经 网 络 这 一 主题 
给 出 其 他 的 一 些 介绍 性 材料 。 比 如 ， 第 5 和 第 6 章 要 复习 线性 代数 ， 它 是 理解 神经 网 络 的 数 
学 基础 的 核心 。 这 两 章 讨 论 的 概念 在 其 余 各 章 被 广泛 地 用 到 。 

第 7 章 和 第 13 章 到 第 16 章 介绍 主要 由 生物 学 和 心理 学 的 启示 所 得 到 的 神经 网 络 和 学 习 
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规则 。 它 们 主要 分 为 两 类 ， 相 联网 络 和 竞争 网 络 。 第 7 章 和 第 13 章 介绍 基本 概念 ,第 14 章 
到 第 16 章 论述 更 先进 的 网 络 。 

第 8 章 到 第 12 章 提出 一 类 叫 性 能 学 习 (performance learning) 的 学 习 方 法 ， 用 它 训练 网 
络 以 优化 网 络 的 性 能 。 第 8 章 和 第 9 章 介绍 性 能 学 习 的 基本 概念 。 第 10 章 到 第 12 章 将 这 些 
概念 用 于 前 馈 神 经 网 络 中 ， 这 将 增强 网 络 的 能 力 ， 但 同时 也 会 增加 学 习 的 复杂 性 。 

第 17 章 和 第 18 章 讨论 递归 网 络 ， 这 些 含有 反馈 连接 的 网 络 是 一 种 动态 系统 。 第 17 章 
研究 这 些 系统 的 稳定 性 ; 第 18 章 描述 Hopfield 网 络 ， 它 是 目前 最 有 影响 的 递归 网 络 之 一 。 

在 第 19 章 ,我 们 对 本 书 所 给 出 的 各 种 网 络 进行 小 结 ， 并 讨论 它们 同 本 书 没 有 涉及 的 其 
他 网 络 之 间 的 关系 。 同 时 ， 我 们 也 要 为 读者 指明 进一步 研究 的 一 些 其 他 参考 资料 。 如 果 您 想 
知道 “我 从 此 将 走向 何 处 ?”， 请 看 第 19 章 。 


软件 


MATLAB 软件 包 不 是 使 用 本 书 必 需 的 。 上 机 练习 可 以 用 其 他 任何 编程 语言 实现 ， 而 且 
Neural Network Design Demonstration (神经 网 络 演示 ) 虽然 对 读者 有 帮助 ， 但 也 是 理解 本 





书 涉及 材料 的 关键 所 在 。 

然而 ,我 们 还 是 把 MATLAB 软件 包 作为 这 本 教科 书 的 附件 。 由 于 该 软件 包含 矩阵 /向 
量 的 表示 法 和 图 形 显示 ， 所 以 它 也 为 神经 网 络 的 实验 提供 了 一 种 方便 的 环境 。 我 们 以 两 种 不 
同 的 方法 使 用 MATLAB。 第 一 ， 书 中 含有 大 量 需要 读者 用 MATLAB 完成 的 习题 。 神 经 网 
络 许多 重要 特征 只 有 在 解决 大 规模 问题 时 才能 体现 出 来 ， 这 些 密集 的 计算 不 适 于 手 算 。 用 
MATLAB 能 很 快 实现 神经 网 络 算法 ， 并 对 大 量 问题 方便 地 进行 测试 。( 若 没有 MATLAB, 
用 其 他 语言 也 可 以 完成 这 些 练习 。) 

使 用 MATLAB 的 第 二 种 方法 是 用 本 书 所 附 磁盘 中 的 Neural Network Design Demonstra- 





tions (神经 网 络 设 计 演示 )， 这 些 交 互 式 演示 阐述 了 每 章 的 重要 概念 。 使 用 时 ， 把 软件 找到 
MATLAB 目录 中 ， 在 MATLAB 的 提示 符 下 ， 敲 击 nnd 即 可 激活 。 所 有 演示 都 可 以 在 主 菜 
单 下 访问 。 


用 左边 所 示 的 图 标 ， 指 明正 文中 对 这 些 演示 的 引用 。 演 示 需 要 MATLAB 4.0 或 

SB 更 高 版 本 ,或 者 MATLAB 4.0 学 生 版 。 另 外 ， 一 些 演示 需要 用 Math Works 公司 
的 Neural Network Toolbox (神经 网 络 工具 箱 ) 1.0 版 本 或 更 高 版 本 。 如 何 使 用 演示 软件 请 
参阅 附录 C。 

为 了 帮助 使 用 本 书 的 教师 ， 我 们 还 准备 了 投影 胶片 和 习题 答案 。 每 一 章 的 投影 胶片 OH 
微软 的 Powerpoint 格式 ) 可 以 从 网 址 www.pws.com/pwsftp. html 获得 。 也 可 以 获取 习题 管 
案 。 
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Bis Z 论 


1.1 目的 


当 你 现在 看 这 本 书 的 时 候 ， 就 正在 使 用 一 个 复杂 的 生物 神经 网 络 。 你 有 -一 个 约 为 10" 个 
神经 元 的 高 度 互 连 的 集合 帮助 你 完成 阅读 、 呼 吸 、 运 动 和 思考 。 你 的 每 一 个 生物 神经 元 都 是 
生物 组 织 和 化 学 物质 的 有 机 结合 。 若 不 考虑 其 速度 的 话 ， 可 以 说 每 个 神经 元 都 是 一 个 复杂 的 
微 处 理 器 。 你 的 某 些 神经 结构 是 与 生 俱 来 的 ， 而 其 他 一 些 则 是 在 实践 中 形成 的 。 

科学 家 们 才刚 刚 开 始 对 生物 神经 网 络 工作 机 理 有 所 认识 。 一 般 认为 ， 包 括 记忆 在 内 的 所 
有 生物 神经 功能 ， 都 存储 在 神经 元 和 及 其 之 间 的 连接 上 。 学 习 被 看 作 是 在 神经 元 之 间 建 立新 
的 连接 或 对 已 有 的 连接 进行 修改 的 过 程 。 这 便 将 引出 下 面 一 个 问题 : 既然 我 们 已 经 对 生物 神 
经 网 络 有 一 个 基本 的 认识 ， 那 么 能 否 利 用 一 些 简单 的 人 工 “ 神 经 元 "构造 一 个 小 系统 ， 然 后 对 
其 进行 训练 ， 从 而 使 它们 具有 一 定 有 用 功能 呢 ? 回答 是 肯定 的 。 本 书 正 是 要 讨论 有 关 人 工 神 
经 网 络 工作 机 理 的 一 些 问 题 。 

我 们 在 这 里 考虑 的 神经 元 不 是 生物 神经 元 。 它 们 是 对 生物 神经 元 极其 简单 的 抽象 ， 可 以 
用 程序 或 硅 电 路 实现 。 虽 然 由 这 些 神经 元 组 成 的 网 络 的 能 力 远 远 不 及 人 脑 的 那么 强大 ， 但 是 
可 对 其 进行 训练 ， 以 实现 一 些 有 用 的 功能 。 本 书 所 要 介绍 的 正 是 有 关于 这 样 的 神经 元 ， 以 及 
包含 这 些 神 经 元 的 网 络 及 其 训练 方法 。 


12 历史 


在 人 工 神经 网 络 的 发 展 历程 中 ， 涌 现 了 许多 在 不 同 领域 中 富有 创造 性 的 传奇 人 物 ， 他 们 
艰苦 奋斗 几 十 年 ， 提 出 了 许多 至 今 仍然 让 我 们 受益 的 概念 。 许 多 作者 都 记载 了 这 一 历史 。 一 
本 特别 有 趣 的 书 是 由 John Anderson 和 Edward Rosenfeld 撰写 的 《神经 计算 : 研究 的 基础 》 
(Neurocomputing: Foundations of Research )。 在 该 书 中 ， 他 们 收集 并 编辑 了 一 组 由 43 篇 具 
有 特别 历史 意义 的 论文 ， 每 一 篇 前 面 都 有 一 段 历史 观点 的 导言 。 

本 书 各 章 开 始 包 括 了 一 些 主要 神经 网 络 研究 人 员 的 历史 ， 所 以 这 里 不 必 袭 述 。 但 是 ， 还 
是 有 必要 简单 地 回顾 一 下 神经 网 络 的 主要 发 展 历史 。 

对 技术 进步 而 言 ， 有 两 点 是 必需 的 : 概念 与 实现 。 首 先 ， 必 须 有 一 个 思考 问题 的 概念 ， 
根据 这 些 概念 明确 所 面临 的 问题 。 这 就 要 求 概念 包含 一 种 简单 的 思想 ， 或 者 更 具 特色 ， 并 且 
引入 数学 描述 。 为 了 理解 这 一 点 ， 让 我 们 看 看 心脏 的 研究 历史 。 在 不 同时 期 ， 心 脏 被 看 成 灵 
魂 的 中 心 或 身体 的 热源 。17 志 纪 的 医生 们 认识 到 心脏 是 一 个 血 泵 ， 于 是 科学 家 们 开始 设计 
实验 ， 研 究 菏 的 行为 。 这 些 实验 最 终 开创 了 循环 系统 理论 。 可 以 说 ， 没 有 泵 的 概念 ， 就 不 会 
有 人 们 对 心脏 的 深入 认识 。 

概念 及 其 相应 的 数学 描述 还 不 足以 使 新 技术 走向 成 熟 ， 除 非 能 通过 某 种 方式 实现 这 种 系 
统 。 比 如 ， 虽然 多 年 前 就 从 数学 上 知道 根据 计算 机 辅助 层 析 成 像 (CAT) 扫 描 可 以 重 构图 像 ， 
但 是 直到 有 了 高 速 计算 机 和 有 效 的 算法 才 使 其 走向 实用 ， 并 最 终 实现 了 有 用 的 CAT 系统 。 
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神经 了 网络 的 发 展 史 同时 包含 了 概念 创新 和 实现 开发 的 进步 。 但 是 这 些 成 果 的 取得 并 不 是 
一 帆 风 顺 的 。 

神经 网 络 领域 研究 的 背景 工作 始 于 19 世纪 末 和 20 世纪 初 。 它 源 于 物理 学 、 心 理学 和 
神经 生理 学 的 路 学 科研 究 ， 主 要 代表 人 物 有 Herman Von Helmholts, Ernst Mach 和 Ivan 
Pavlov。 这 些 早期 研究 主要 还 是 着 重 于 有 关 学 习 、 视 觉 和 条 件 反 射 等 一 般 理 论 ， 并 没有 包含 
有 关 神 经 元 工作 的 数学 模型 。 

现代 对 神经 网 络 的 研究 可 以 退潮 到 20 世纪 40 年 代 Warren McCulloch 和 Walter Pitts 的 
工作 i MePi43]。 他 们 从 原理 上 证 明了 人 工 神 经 网 络 可 以 计算 任何 算术 和 逻辑 函数 。 通 常 认 
为 他 们 的 工作 是 神经 网 络 领域 研究 工作 的 开始 。 

在 McCulloch 和 Pitts 之 后 ，Donald Hebb [Hebb49] 指 出 ， 经 典 的 条 件 反射 (由 Pavlov 发 
现 ) 是 由 单个 神经 元 的 性 质 引起 的 。 他 提出 了 生物 神经 元 的 一 种 学 习 机 制 (参见 第 7 章 )。 

人 工 神经 网 络 第 一 个 实际 应 用 出 现在 20 世纪 50 年 代 后 期 ，Frank Rosenblatt | RoseS8 ] 
提出 了 感知 机 网 络 和 联想 学 习 规 则 。Rosenblatt 和 他 的 同事 构造 了 一 个 感知 机 网 络 ， 并 公开 
演示 了 它 进行 模式 识别 的 能 力 。 这 次 早期 的 成 功 引 起 了 许多 人 对 神经 网 络 研 究 的 兴趣 。 不 幸 
的 是 ， 后 来 研究 表明 基本 的 感知 机 网 络 只 能 解决 有 限 的 几 类 问题 。( 有 关 Rosenblatt 和 感知 
机 学 习 规则 ， 请 参见 第 4 章 ,) 

同时 ，Bernard Widrow 和 Ted Hoff [ WiHo60] 引 入 了 一 个 新 的 学 习 算 法 用 于 训练 自 适应 
线性 神经 网 络 。 它 在 结构 和 功能 上 类 似 于 Rosenblatt 的 感知 机 。Widrow-Hoff 学 习 规则 至 今 
仍然 还 在 使 用 。( 关 于 Widrow-Hoff 学 习 请 参见 第 10 Æ.) 

但 是 ，Rosenblatt 和 Widrow 的 网 络 都 有 同样 的 固有 局 限 性 。 这 些 局 限 性 在 Marvin Min- 
sky #1 Symour Papert 的 书 [ MiPa69] 中 有 广泛 的 论述 。Rosenblatt 和 Widrow 也 十 分 清楚 这 些 
局 限 性 ， 并 提出 了 一 些 新 的 网 络 来 克服 这 些 局 限 性 。 但 是 他 们 没 能 成 功 找 到 训练 更 加 复杂 网 
络 的 学 习 算法 。 

许多 人 受到 Minsky 和 Papert 的 影响 ， 相 信 神 经 网 络 的 研究 已 走 人 了 了 死胡同。 同时 由 于 
当时 没有 功能 强大 的 数字 计算 机 来 支持 各 种 实验 ， 从 而 导致 许多 研究 者 纷纷 离开 这 一 一 研究 领 
域 。 神 经 网 络 的 研究 就 这 样 停滞 了 十 多 年 。 

即使 如 此 ， 在 20 世纪 70 年 代 ， 科 学 家 们 仍然 在 该 领域 开展 了 许多 重要 的 工作 。1972 
年 Teuvo Kohonen [Koho72] 和 James Anderson [Ande72] 分 别 独立 提出 了 能 够 完成 记忆 的 新 
型 神经 网 络 。( 有 关 Kohonen 网 络 更 加 详细 的 内 容 请 参见 第 13 章 和 第 14 章 。) 这 一 时 期 ， 
Stephen Grossberg [Gros76] 在 自 组 织 网 络 方面 的 研究 也 十 分 活跃 。 (参见 第 15 章 和 第 16 
章 。) 

前 面 我 们 说 过 ， 在 60 年 代 ， 由 于 缺乏 新 思想 和 用 于 实验 的 高 性 能 计算 机 ， 曾 一 度 动摇 
了 人 们 对 神经 网 络 的 研究 兴趣 。 到 了 80 年 代 ， 随 着 个 人 计算 机 和 工作 站 计算 能 力 的 急剧 增 
强 和 广泛 应 用 ， 以 及 不 断 引 入 新 的 概念 ， 克 服 了 摆 在 神经 网 络 研究 面前 的 障碍 ， 人 们 对 神经 
网 络 的 研究 热情 空前 高 涨 。 

有 两 个 新 概念 对 神经 网 络 的 复兴 具有 极其 重大 的 意义 。 其 一 是 : 用 统计 机 理解 释 某 些 
类 型 的 递归 网 络 的 操作 ， 这 类 网 络 可 作为 联想 存储 器 。 物 理学 家 John Hopfield 的 研究 论文 
[Hopf82] 论 述 了 这 些 思想 。( 第 17 章 和 第 18 章 讨论 Hopfield 网 络 。) 

其 二 是 : 在 20 世纪 80 年 代 ， 几 个 不 同 的 研究 者 分 别 开 发 出 了 用 于 训练 多 层 感知 机 的 反 
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传 算法 。 其 中 最 具 影 响 力 的 反 传 算法 是 David Rumelhart 和 James McClelland [ RuMc86]1& HH 
的 。 该 算法 有 力 地 回答 了 60 年 代 Minsky 和 Papert 对 神经 网 络 的 责难 。( 有 关 反 传 算法 详细 
内 容 请 参见 第 11 章 和 第 12 章 。) 

这 些 新 进展 对 神经 网 络 研究 领域 重新 注 人 了 活力 。 在 过 去 的 10 年 中 ， 人 们 发 表 了 成 千 
上 万 的 神经 网 络 研 究 论文 ， 神 经 网 络 也 有 了 很 多 应 用 。 许 多 理论 和 实践 工作 蜂拥 而 至 ， 以 致 
于 我 们 至 今 还 不 十 分 清楚 这 将 会 把 我 们 带 向 何方 。 

以 上 简略 的 历史 回顾 并 没有 列 出 所 有 对 神经 网 络 作 出 重要 贡献 的 人 ， 但 它 能 使 读者 知道 
神经 网 络 是 如 何 发 展 而 来 的 。 读 者 或 许 会 注意 到 ， 这 个 发 展 趋势 并 不 总 是 “缓慢 而 坚定 ”的 ， 
而 是 曾经 有 急剧 发 展 的 时 期 ， 也 有 相对 停滞 的 时 期 。 

许多 神经 网 络 研 究 进展 都 与 新 概念 的 提出 有 关 ， 如 革新 的 神经 网 络 结构 和 训练 规则 。 同 
样 十 分 重要 的 是 ， 高 性 能 计算 机 的 出 现 使 新 概念 能 够 得 到 检验 。 

好 了 ， 对 神经 网 络 的 历史 就 说 这 么 多 。 真 正 的 问题 是 :“ 以 后 的 10 到 20 年 会 怎样 ?” 神 
经 网 络 将 演变 为 一 个 永久 的 数学 /工程 工具 ， 还 是 像 许多 曾 大 有 希望 的 技术 那样 退出 历史 舞 
E? 目前 来 看 ， 似 乎 神经 网 络 不 仅 有 兴旺 的 时 日 ， 而 且 能 取得 一 个 永久 的 地 位 ， 即 使 它 不 能 
解决 所 有 问题 ， 但 在 某 些 适 当 的 场合 还 是 非常 有 用 的 工具 。 另 外 ， 要 记 住 我 们 现在 对 人 脑 的 
认识 仍 很 肤浅 ， 相 信 将 来 某 一 天 神经 网 络 将 会 取得 最 重要 的 进展 。 

尽管 很 难 巴 料 神经 网 络 今后 能 否 成 功 ， 但 这 种 新 技术 的 大 量 而 广泛 应 用 还 是 令 人 鼓舞 
的 。 下 面 一 节 将 介绍 一 些 神经 网 络 应 用 。 


1.9 应 用 


最 近 报纸 报道 Aston 大 学 用 神经 网 络 来 进行 文献 研究 。 这 篇 报道 说 “神经 网 络 可 以 用 来 
识别 个 人 的 写作 风格 ,研究 人 员 用 它 比较 了 莎士比亚 和 他 同时 代 人 的 著作 ”。-- 个 大 众 科学 电 
视 节 目 最 近 报 道 了 某 意 大 利 的 研究 结构 用 神经 网 络 测试 橄榄 油 的 纯度 。 这 些 例 子 从 一 个 侧面 
说 明神 经 网 络 有 极其 广泛 的 应 用 领域 。 正 是 因为 它 适合 于 解决 实际 问题 ， 所 以 其 应 用 领域 在 
不 断 扩大 ， 它 不 仅 可 以 广泛 应 用 于 工程 、 科 学 和 数学 领域 ， 也 可 广泛 应 用 于 医学 、 商 业 、 金 
融和 文学 等 领域 。 神 经 网 络 在 许多 领域 的 广泛 应 用 ， 使 其 极 具 吸引 力 。 同 时 ， 基 于 高 速 计算 
机 和 快速 算法 ， 也 可 以 用 神经 网 络 解决 过 去 许多 计算 量 很 大 的 复杂 工业 问题 。 

以 下 神经 网 络 的 应 用 说 明 来 源 于 MATLAB 用 到 的 Neural Network Toolbox (神经 网 络 工 
EW), CAAT MathWorks 公司 的 允许 。 

1988 年 ， 在 DARPA 的 “神经 网 络 研究 报告 "( Neural Network Study)[DARP88] 中 列举 了 
各 种 神经 网 络 的 应 用 。 其 中 第 一 个 应 用 就 是 大 约 在 1984 年 的 自 适应 频道 均衡 器 。 这 个 设备 
在 商业 上 取得 了 极 大 的 成 功 。 它 用 一 个 单 神经 元 网 络 来 稳定 电话 系统 中 长 距离 传输 的 声音 信 
号 。DARPA 报告 还 列举 了 其 他 一 些 神经 网 络 在 商业 领域 中 的 应 用 ， 包 括 一 个 小 规模 的 单词 
识别 器 、 过 程 监测 器 、 声 纳 分 类 器 和 一 个 风险 分 析 系 统 。 


自 DARPA 报告 问世 以 来 ， 神 经 网 络 已 被 用 于 许多 领域 。 在 文献 中 所 列举 的 一 些 应 用 如 


F: 

ms 
高 性 能 飞行 器 自动 驾驶 仪 ， 飞 行路 径 模拟 ， 飞 机 控制 系统 ， 自 动 驾驶 优化 器 ， 飞 行 部 件 
模拟 ， 飞 行 器 部 件 故障 检测 器 
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汽车 自动 导航 系统 ， 担 保 行为 分 析 器 
银行 
支票 和 其 他 公文 阅读 器 ， 信 贷 申 请 的 评估 器 
国防 
武器 操纵 ， 目 标 跟踪 ， 目 标 辨 识 ， 面 部 识别 、 新 型 的 传 感 问 ， 声 纳 、 雷 达 和 图 像 信号 处 
理 (包括 数据 压缩 、 特 征 提取 、 噪 声 抑制 、 信 号 /图 像 的 识别 ) 
电子 
代码 序列 预测 ， 集 成 电路 芯片 布局 ， 过 程控 制 ， 芯 片 故 障 分 析 ， 机 器 视觉 ， 语 音 综合 ， 
非 线性 建 模 
娱乐 
动画 ， 特 技 ， 市 场 预测 


金融 
不 动产 评估 ， 借 贷 咨询 ， 抵 押 审 查 ， 公 司 证 券 分 级 ， 投 资 交易 程序 ， 公 司 财务 分 析 ， 通 
货 价格 预测 

保险 
政策 应 用 评估 ， 产 品 优化 

制造 


生产 流程 控制 ， 产 品 设计 和 分 析 ， 过 程 和 机 器 诊断 ， 实 时 微粒 识别 ， 可 视 质 量 监 督 系 

统 ， 啤 酒 检测 ， 焊 接 质量 分 析 ， 纸 张 质量 预测 ， 计 算 机 芯片 质量 分 析 ， 磨 床 运 转 分 析 ， 

化 工 产品 设计 分 析 ， 机 器 性 能 分 析 ， 项 目 投标 ， 计 划 和 管理 ， 化 工 流 程 系统 动态 建 模 
医疗 

乳房 癌 细 胞 分 析 ，EEG 和 ECG 分 析 ， 修 复 设计 ， 移 植 次 数 优化 ， 医 院 费用 节 流 ， 医 院 

质量 改进 ， 急 诊室 检查 建议 


石油 和 天 然 气 

探查 
机 器 人 

轨道 控制 ， 铲 车 机 器 人 ， 操 作 手 控制 句 ， 祝 觉 系统 
语音 

语音 识别 ， 语 音 压 缩 ， 元 音 识别 ， 文 本 到 语音 的 综合 
有 价 证 券 

市 场 分 析 ， 自 动 证 券 分 级 ， 股 票 交 易 咨询 系统 
电信 

图 像 和 数据 压缩 ， 自 动 信息 服务 ， 实 时 语言 翻译 ， 客 户 支付 处 理 系统 
交通 


卡车 制动器 诊断 系统 ， 车 辆 调度 ， 运 送 系 统 


结论 
神经 网 络 应 用 的 数量 、 投 入 到 神经 网 络 软 硬 件 上 的 资金 和 公众 对 这 些 设 计 的 兴趣 都 在 快 
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速 增长 。 
1.4 生物 学 的 启示 


本 书 所 讲 的 人 工 神经 网 络 与 它 对 应 的 生物 神经 网 络 有 很 大 区 别 。 本 节 我 们 将 简单 介绍 人 
脑 功能 中 那些 对 人 工 神经 网 络 研究 有 局 示 的 特征 。 

人 脑 由 大 量 ( 约 102 个 ) 高 度 互 连 的 单元 (每 个 单元 约 有 10* 个 连接 ) 组 成 。 这 些 单元 被 称 
为 神经 元 。 就 研究 的 上 且 的 来 看 ， 这 些 神经 元 由 三 部 分 组 成 : 树 突 、 细 胞 体 和 轴 突 。 树 突 是 树 
状 的 神经 纤维 接收 网 络 ， 它 将 电信 号 传送 到 细胞 体 ， 细 胞 体 对 这 些 输 入 信号 进行 整合 并 进行 
阅 值 处 理 。 轴 突 是 单 根 长 纤维 ， 它 把 细胞 体 的 输出 信号 导向 其 他 神经 元 。 一 个 神经 细胞 的 轴 
突 和 另 一 个 神经 细胞 树 突 的 结合 点 称 为 突 触 。 神 经 元 的 排列 和 突 触 的 强度 (由 复杂 的 化 学 过 
程 决 定 ) 确 立 了 神经 网 络 的 功能 。 图 1-1 是 两 个 生物 神经 元 的 简化 图 示 。 


树 突 


轴 突 





图 1-1 生物 神经 元 简 图 


一 些 神经 结构 是 与 生 俱 来 的 ， 而 其 他 部 分 则 是 在 学 习 的 过 程 中 形成 的 。 在 学 习 的 过 程 
中 ， 可 能 会 产生 一 些 新 的 连接 ， 一 些 连 接 也 可 能 会 消失 。 这 个 过 程 在 生命 早期 最 为 显著 。 比 
如 ， 如 果 在 某 一 段 关键 的 时 期 内 禁止 一 只 小 猫 使 用 它 某 一 只 了 眼睛 ， 则 它 的 这 只 有 眼 在 以 后 很 难 
形成 正常 的 视力 。 

神经 结构 在 整个 生命 期 内 不 断 地 进行 着 改变 ， 后 期 的 改变 主要 是 加 强 或 减弱 突 触 连接 。 
例如 ， 现 在 已 经 确认 ， 新 记忆 的 形成 是 通过 改变 突 触 强度 而 实现 的 。 所 以 ， 认 识 一 位 新 朋友 
面孔 的 过 程 中 包含 了 各 种 突 触 的 改变 过 程 。 

人 工 神经 网 络 却 没有 人 脑 那 么 复杂 ， 但 它们 之 间 有 两 个 关键 相似 之 处 。 首 先 ， 两 个 网 络 
的 构成 都 是 可 计算 单元 的 高 度 互 连 (虽然 人 工 神经 元 比 生物 神经 元 简单 得 多 ) 。 其 次 ， 处 理 单 
元 之 间 的 连接 决定 了 网 络 的 功能 。 本 书 的 根本 目标 就 是 在 人 工 神经 网 络 中 采用 合适 的 连接 来 
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解决 特定 的 问题 。 

值得 注意 的 是 ， 虽 然 生 物 神经 元 相对 于 电子 电路 来 说 非常 慢 (10 一 秒 相对 于 107? 99), 
人 脑 却 能 以 比 现 有 计算 机 快 得 多 的 速度 完成 许多 任务 。 这 主要 是 因为 生物 神经 网 络 具 有 巨大 
的 并 行 性 ， 即 所 有 的 神经 元 能 同时 操作 。 即 使 大 多 数 人 工 神经 网 络 是 在 传统 的 数字 计算 机 上 
实现 的 ， 但 并 行 处 理 结构 使 它们 适合 于 采用 VLSI、 光 学 器 件 和 并 行 处 理 技术 实现 。 

下 一 章 我 们 将 介绍 基本 的 人 工 神经 元 ， 并 将 解释 如 何 将 这 些 神经 元 组 合 起 来 形成 网 络 : 
这 主要 是 为 第 3 章 提供 背景 知识 ， 在 第 3 章 中 我 们 将 会 看 到 能 实际 工作 的 神经 网 络 。 
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第 2 章 神经 元 模型 和 网 络 结构 


2.1 目的 


第 1 章 给 出 了 生物 神经 元 和 神经 网 络 的 简 述 。 现 在 来 介绍 简化 的 神经 元 数学 模型 ， 并 解 
释 这 些 人 工 神经 元 如 何 相互 连接 形成 各 种 网 络 结构 。 另 外 ， 本 章 还 将 通过 几 个 简单 的 实例 盖 
述 这些 网 络 如 何 工 作 。 本 书 中 将 使 用 本 章 所 引信 的 概念 和 符号 。 

这 一 章 没 有 覆盖 该 书 中 所 用 到 的 所 有 结构 ， 但 是 给 出 了 其 他 结构 所 要 用 到 的 基本 模块 。 
更 复杂 的 结构 将 在 后 面 几 章 中 用 到 的 地 方 介 绍 和 讨论 。 不 过 这 里 也 会 给 出 它们 的 许多 细节 。 
注意 ， 我 们 不 要 求 读者 第 一 次 阅读 就 记 住 本 章 的 所 有 内 容 ， 但 要 把 它 作为 你 开始 着 手 学 习 的 
实例 和 以 后 要 温习 的 资料 。 


2.2 原理 和 实例 


2.2.1 符号 


神经 网 络 是 门 新 兴学 科 ， 迄 今 为 止 ， 人 们 还 并 没有 对 其 建立 严格 的 数学 符号 和 结构 化 表 
示 。 另 外 ， 神 经 网 络 方面 的 论文 和 书籍 均 是 来 自 诸 如 工程 、 物 理 、 心 理学 和 数学 等 许多 不 同 
领域 ， 作 者 都 习惯 使 用 本 专业 的 特殊 词汇 。 于是， 神经 网 络 的 许多 文献 都 难以 阅读 ， 概 念 也 
较 实际 情况 更 为 复杂 。 这 实在 令 人 感到 刁 愧 ， 因 为 这 些 妨 碍 了 许多 重要 思想 的 传播 ， 并 且 导 
致 了 不 止 一 次 的 “重复 发 明 ”。 

在 本 书 中 ， 我 们 尽 可 能 地 使 用 标准 符号 ， 在 不 失 严 格 的 条 件 下 使 之 简单 明了 。 特 别 地 ， 
这 里 将 尽力 保留 已 有 的 使 用 习惯 ， 并 使 其 前 后 一 致 。 

本 书 中 的 图 、 数 学 公式 以 及 解释 图 和 数学 公式 的 正文 ， 将 使 用 以 下 符号 : 

。 标 量 : 小 写 的 斜体 字母 ， 如 a ,b,c。 

。 A: 小 写 的 黑 正体 字母 ， 如 a,b,c。 

。 和 矩阵 ， 大 写 的 黑 正体 字母 ， 如 A,B,C。 

本 章 将 引 和 人 有关 网 络 结构 的 其 他 一 些 符 号 。 全 书 中 用 到 的 所 有 符号 都 可 以 在 附录 B 中 
查 到 。 所 以 ， 如 果 你 有 和 何 疑问 ， 可 以 查 附录 Bo 


2.2.2 神经 元 模型 


1. 单 输入 神经 元 

xf AEE) 净 输 入 传输 函数 ”一 个 单 输入 神经 元 如 图 2-1 所 示 。 标 量 输入 p RK 
上 标量 权 值 w 得 到 wp ， 再 将 其 送信 累加 器 。 另 一 个 输入 1 RERE b, FARZA RM 
器 。 累 加 器 输出 n 通常 被 称 为 净 输 入 ， 它 被 送 人 一 个 传输 函数 p, XE 三 中 产生 神经 元 的 标 
量 输出 a。( 也 有 一 些 作者 将 该 传输 函数 称 为 “活路 函数 ”， 将 偏 置 值 称 为 “ 偏 移 量 ”。) 

若 将 这 个 简单 模型 和 前 面 第 1 章 所 讨论 的 生物 神经 元 相对 照 ， 则 权 值 w 对 应 于 突 触 的 
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连接 强度 ， 细 胞 体 对 应 于 累加 器 和 传输 函数 ， 神 经 元 输出 a 代表 轴 突 的 信和 号。 


输入 通用 神经 元 


pei r -* 
À 


LY l 
a=f(wp+b) 


图 2-1 单 输入 神经 元 


神经 元 输出 按 下 式 计算 : 
a = f(wp + b) 
例如 ， £i w=3, p=2, b=-1.5, 则 
a = f(3(2) - 1.5) = f(4.5) 


实际 输出 取决 于 所 选择 的 特定 传输 函数 。 下 面 一 节 将 讨论 传输 函数 。 

偏 置 值 除了 有 常数 输入 值 1 之 外 ， 它 很 像 一 个 权 值 。 但 是 ， 如 果 不 想 在 神经 元 中 使 用 仿 
置 值 ， 也 可 以 忽略 它 。 在 后 面 第 3 章 、 第 7 章 和 第 14 章 中 将 出 现 这 样 的 情况 。 

注意 ，w Hb 是 神经 元 的 可 调整 标量 参数 。 设 计 者 也 可 以 选择 特定 的 传输 函数 ， 在 一 
些 学 习 规 则 中 调整 参数 v 和 6b， 以 满足 特定 的 需要 (参见 第 4 章 学 习 规则 )。 正 如 将 在 下 一 节 
所 讨论 的 ， 依 据 不 同 目的 可 以 选择 不 同 的 传输 函数 。 

2. 传输 函数 

图 2-1 中 的 传输 函数 可 以 是 n 的 线性 或 非 线性 函数 。 可 以 用 特定 的 传输 函数 满足 神经 元 
要 解决 的 特定 问题 。 

本 书包 括 了 各 种 不 同 的 传输 函数 。 下 面 将 讨论 其 中 最 常用 的 三 种 。 

硬 极 限 传输 函数 ” 硬 极限 传输 函数 如 图 2-2 中 的 左 图 所 示 ， 当 函数 的 自 变量 小 于 0 时 ， 
函数 的 输出 为 0， 当 函数 的 自 变量 大 于 或 等 于 0 时 ， 函 数 的 输出 为 1。 用 该 函数 可 以 把 输入 (23 | 
分 成 两 类 。 第 4 章 将 广泛 使 用 该 传输 函数 。 





a = hardlim(n) a = hardlim (wp + b) 
硬 极限 传输 函数 单 输入 hardlim 神经 元 


图 2-2 硬 极限 传输 函数 
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图 2-2 的 右 图 描述 了 使 用 硬 极限 传输 函数 的 单 输入 神经 元 的 输入 /输出 特征 曲线 。 从 中 
可 看 出 权 值 和 偏 置 值 的 影响 。 注 意 ， 两 图 之 间 的 图 标 代表 硬 极 限 传输 函数 。 在 网 络 图 中 的 这 
个 图 标 表示 使 用 了 该 传输 函数 。 
线性 传输 函数 ”线性 传输 省 数 的 输出 等 于 输入 (如 图 2-3 所 示 ): 
= n (2.1) 
在 第 10 章 讨 论 的 ADALINE 网 络 中 ， 神 经 元 使 用 的 是 该 传输 函数 。 





a = purelin(n) a = purelin(wp +b) 


线性 传输 函数 单 输入 purelin 神经 元 
图 2-3 ”线性 传输 函数 


24 | 图 2-3 右 图 是 带 偏 置 值 的 单 输入 线性 神经 元 的 输入 /输出 特征 曲线 。 
对 数 -S 形 传输 函数 ”对 数 -S 形 (logsig) 传 输 函 数 如 图 2-4 所 示 。 





a = logsig(n) a = logsig{wp +b) 
Log-Sigmoid 传输 函数 单 输入 logsig 神经 元 


图 2-4 对 数 -S 形 传输 函数 
该 传输 函数 的 输入 在 ( - w ，om ) 之 间 取 值 ， 输 出 则 在 0 到 1 之 间 取 值 ， 其 数学 表达 式 





a = (2.2) 
在 某 种 程度 上 可 以 说 ， 正 是 由 于 对 数 -S 形 函 数 是 可 微 的 ， 所 以 用 于 反 传 (BP) 算 法 训练 
的 多 层 网 络 才 采 用 了 该 传输 函数 。 
本 书 所 用 的 大 多 数 传输 函数 在 表 2-1 中 都 可 以 找到 。 当 然 ， 你 也 可 以 定义 不 同 于 表 2-1 
的 传输 函数 。 


要 对 单 输入 神经 元 进行 实验 ， 可 使 用 Neural Network Design Demonstration One- 
Input Neuron (nnd2n1). 
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R21 FABR 
名 K 输入 /输出 关系 E m MATLAB 函数 
=0 0 
IE IRIRA% j T 1 - hardlim 
| a= nz 
| 
+ 
| a= -1, n<0 
十 称 硬 极限 函数 | azl, az0 hardlims 
线性 函数 azn purelin 
a=0, n<0 
饱和 线性 函数 a=n, Os<n<l satlin 
a=1, n»l 
a-z-1l,n«-l 
对 称 饱和 线性 函数 azn, -len«l satlins 
a=1, n>l 
-一 上 
1 . 
对 数 -S 形 函 数 a=T logsig 
ee-e" ; 
HHEN SEAH a re tansig 
=0, 0 
正 线性 函数 “ o poslin 
a=n, nè 
Ld 
a=1， 具 有 最 大 n 的 神经 元 [C] 
竞争 函数 a=0, 所 有 其 他 神经 元 compet 
3. 多 输入 神经 元 


MUGS 通常 ， 一 个 神经 元 有 不 止 一 个 输入 。 具 有 RR 个 输入 的 神经 元 如 图 2-5 Bom 
其 输入 Pi? Po» vo Pp 分 别 对 应 权 值 短 阵 W 的 元 素 Wi Wi "TP Wi ge 





a=f(Wp+b) 


图 2-5 多 输入 神经 元 
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该 神经 元 有 一 个 偏 置 值 5 ， 它 与 所 有 输入 的 加 权 和 累加 ， 从 而 形成 净 输 入 n: 


n = Wy py + Wy opp tcs Wi ppp b (2.3) 
这 个 表达 式 也 可 以 写成 矩阵 形式 ; 
n= Wp+ b (2.4) 
其 中 单个 神经 元 的 权 值 矩阵 W 只 有 一 列 元 素 。 
神经 元 的 输出 可 以 写成 
a = f(Wp+ 5b) (2.5) 


所 幸 的 是 ， 神 经 网 络 通常 可 以 用 和 抢 阵 来 描述 。 全 书 也 将 采用 这 种 矩阵 描述 方法 。 请 不 要 
为 矩阵 和 向 量 运算 担心 ， 我 们 将 在 第 5，6 章 复习 这 些 内 容 ， 并 给 出 一 些 例题 及 其 求解 方法 。 

权 值 下 标本 书 将 采用 习惯 的 方法 表示 权 值 矩阵 元 素 的 下 标 。 权 值 矩 阵 元 素 下 标的 第 一 
个 下 标 表 示 权 值 相应 连接 所 指定 的 目标 神经 元 编号 ， 第 二 个 下 标 表示 权 值 相应 连接 的 源 神经 
元 编号 。 据 此 ，w1,; 的 含义 是 : 该 权 值 表示 从 第 二 个 神经 元 到 第 一 个 神经 元 的 连接 。 在 本 章 
稍 后 就 会 看 到 ， 这 种 习惯 表示 法 在 有 多 个 神经 元 时 很 有 用 。 

简化 符号 ”我 们 可 以 画 出 一 个 由 几 个 神经 元 组 成 的 网 络 ， 每 个 神经 元 都 有 几 个 输入 。 而 
且 ， 一 个 网 络 还 可 以 有 几 层 神经 元 。 可 以 想像 ， 当 画 出 所 有 神经 元 之 同 的 连接 后 ， 网 络 将 会 多 
么 复杂 。 网 络 中 的 大 量 连接 会 使 得 网 络 难 被 看 懂 ， 而 且 对 连 搂 的 详细 描述 也 会 掩盖 网 络 的 主要 
特征 ， 所 以 本 书 将 采用 简化 符号 来 表示 神经 元 。 图 2-6 为 利用 这 种 符号 所 表示 的 多 输入 神经 元 。 

输入 多 输入 神经 元 





a zf(Wp«b) 


图 2-6 具有 RR 个 输入 的 神经 元 的 简化 符号 


在 图 2-6 中 ， 左 边 垂直 的 实心 条 表示 输入 向 量 p，p 下 面 的 变量 R x 1 表示 p HEM, 
也 即 输入 是 由 R 个 元 素 组 成 的 一 维 向 量 。 这 些 输入 被 送 和 人权 值 矩 阵 W， 双 有 1 行 玉 列 。 常 
量 1 则 作为 输入 与 标量 偏 置 值 5 相 乘 。 传 输 函数 / 的 净 输入 是 n， 它 是 偏 置 值 b 与 积 Wp 的 
和 。 在 这 种 情况 下 ， 神 经 元 的 输出 a 是 一 个 标量 。 如 果 网 络 有 多 个 神经 元 ， 那 么 网 络 输出 
就 可 能 是 一 个 向 量 。 

在 简化 符号 图 中 ， 一 般 要 标 出 变量 的 维 数 ， 这 样 可 以 立即 知道 该 变量 是 一 个 标量 ， 还 是 
一 个 向 量 ， 抑 或 是 一 个 矩阵 ， 而 不 必 费 心 去 犹 变量 的 类 型 或 维 数 。 

请 注意 ， 网 络 的 输入 是 由 问题 的 外 部 描述 决定 的 。 比 如 要 设计 神经 网 络 来 预测 风筝 飞行 
条 件 。 输 入 应 该 是 空气 的 温度 、 风 速 、 湿 度 ， 这 样 神经 网 络 就 有 三 个 输入 。 


要 对 两 输入 神经 元 进行 实验 ， 可 使 用 Neural Network Design Demonstration Two- 
Input Neuron (nnd2n2) 。 
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2.2.8 网 络 结构 


一 般 来 说 ， 有 多 个 输入 的 单个 神经 元 并 不 能 满足 实际 应 用 的 要 求 。 在 实际 应 用 中 需要 有 
多 个 并 行 操作 的 神经 元 ， 这 里 将 这 些 可 以 并 行 操作 的 神经 元 组 成 的 集合 称 为 “ 层 ”"。 下 面 将 对 
这 个 概念 进行 讨论 。 
1. 神经 元 的 层 
m 图 2-7 是 由 S 个 神经 元 组 成 的 单 层 网 络 。 注 意 ， 尺 个 输入 中 的 每 -- 个 均 与 每 个 神 
经 元 相连 ， 权 值 矩 阵 现 在 有 S 行 。 
输入 5 个 神经 元 的 层 





a = f(Wp+b) 


图 2-7 S 个 神经 元 组 成 的 层 


该 层 包括 权 值 矩阵 、 累 加 器 、 偏 置 值 向 量 b、 传 输 函 数 框 和 输出 向 量 a。 一 些 作 者 也 把 
输入 看 作 是 另外 一 层 ， 但 这 里 并 不 这 样 认 为 。 
输入 向 量 p 的 每 个 元 素 均 通过 权 值 矩阵 W 和 每 个 神经 元 相连 。 每 个 神经 元 有 一 个 偏 置 
值 5;、 一 个 累加 器 、 一 个 传输 函数 f 和 一 个 输出 a;。 将 所 有 神经 元 的 输出 结合 在 一 起 ， 可 
以 得 到 一 个 输出 向 量 a。 
通常 ， 每 层 的 输入 个 数 并 不 等 于 该 层 中 神经 元 的 数目 ( 即 是 R S). 
也 许可 能 有 人 要 问 ， 同 一 层 中 所 有 神经 元 是 否 要 有 同样 的 传输 孙 数 ? 回答 是 否定 的 。 可 
以 把 如 上 所 述 的 两 个 并 行 操作 网 络 组 合 在 一 起 定义 一 种 有 不 同 传输 函数 的 单个 神经 元 (复合 ) [29 | 
层 。 两 个 网 络 都 有 同样 的 输入 ， 而 每 个 网 络 只 产生 一 部 分 输出 。 


输入 向 量 通过 如 下 权 和 矩阵 W 进入 网 络 ; 
wi, Wy2 ""' — WR 
V2.1 1052. "'' WAR 
W=] . . (2.6) 
Ws] Ws,2 `“ Ws,R 


如 前 所 述 ， 和 矩阵 W 中 元 素 的 行 下 标 代表 该 权 值 相 应 连接 和 输出 的 目的 神经 元 ， 而 列 下 标 
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代表 该 权 值 相 应 连接 的 输入 源 神经 元 。 那 么 ， 丈 3,z 的 下 标 表 示 该 元 素 是 从 第 二 个 神经 元 到 
第 三 个 神经 元 的 连接 的 权 值 。 

同样 ， 具 有 $ 个 神经 元 、R 个 输入 的 单 层 网 络 也 能 用 简化 的 符号 表示 为 如 图 2-8 所 示 
的 形式 。 


输入 S 个 神经 元 的 层 





a=f(Wp+b) 


图 2-8 Hi S 个 神经 元 组 成 的 层 的 简化 表示 


上 图 中 每 个 变量 下 的 符号 指明 了 是 长 度 为 R 的 向 量 ，W 是 一 个 Sx RE, a fl b JE 
长 度 为 $ 的 向 量 。 如 前 所 述 ， 该 层 包括 权 值 矩 阵 、 加 操作 种 乘 操作 、 偏 置 值 向 量 b、 传 输 函 
数 框 和 输出 向 量 。 
2. 多 层 神 经 元 
BER ”现在 考虑 具有 几 层 神经 元 的 网 络 。 每 层 都 有 自己 的 权 值 逢 阵 W、 偏 置 值 向 量 
2-10) b、 净 输入 向 量 n 和 一 个 输出 向 量 a。 这 里 需要 引 人 额 外 的 符号 来 区 分 这 些 层次 。 我 们 可 以 
用 上 标 来 标注 这 些 层次 ， 即 每 个 变量 都 附加 一 个 上 标 来 表示 其 所 处 层次 。 这 样 ， 第 一 层 的 权 
值 算 阵 可 以 写 为 W!， 第 二 层 的 权 值 矩阵 可 以 写 为 W>， 等 等 。 如 图 2-9 所 示 的 三 层 网 络 就 使 
用 了 这 种 标记 方法 。 








LLLA V 
al=f1(W'p+b!) a? = f 2(W2a!+b?2) a} = f 3 (W3a2+ b3) 
a3 = £3(W3f2(W2f ! (Wip +b!) +b2) +b?) 
图 2-9 三 层 网 络 
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如 图 所 示 ， 第 一 层 有 R SBA. S 个 神经 元 ， 第 二 层 有 S 个 神经 元 ， 等 等 。 要 注意 
不 同 层 可 以 有 不 同 数 目的 神经 元 。 

第 一 层 和 第 二 层 的 输出 分 别 是 第 二 层 和 第 三 层 的 输入 。 据 此 ， 可 以 将 第 二 层 看 作 是 一 个 
单 层 网 络 ， 它 有 R= 5S! 个 输入 ，S = S? 个 神经 元 ， 和 一 个 SI x S? 维 的 权 值 矩阵 W^. 38 — 
层 的 输入 是 al ， 输 出 是 a’. 

输入 层 “” 隐 含 层 ” 如 果 某 层 的 输出 是 网 络 的 输出 ， 那 么 称 该 层 为 输出 层 ， 而 其 他 层 叫 降 
SE. 上 图 中 的 网 络 有 一 个 输出 层 (第 3 层 ) 和 两 个 隐 含 层 (第 1 层 和 第 2 层 ) 。 

前 面 讨 论 的 三 层 网 络 同 样 也 可 以 用 简化 的 符号 表示 ， 如 图 2-10 所 示 。 

输入 第 1 层 第 2 层 第 3 层 








a =f (Wipeb) a? -2f2(WAa +b?) a? =f3(YV382+b3) 
a =f3(Wif2(W2fI(WIpD+bl)+b2) eb?) 


图 2-10 三 层 网 络 的 简化 表示 


多 屋 网 络 的 功能 要 比 单 层 网 络 强 大 得 多 。 比 如 ， 一 个 第 一 层 具 有 S 形 传输 函数 、 第 二 
层 具 有 线性 传输 函数 的 网 络 ， 经 过 训练 可 对 大 多 数 函 数 达 到 任意 精度 的 逼近 ， 而 单 层 网 络 则 
不 能 做 到 这 一 点 。 

从 上 面 讨论 可 以 看 出 ， 决 定 一 个 网 络 的 神经 元 个 数 非常 重要 。 现 在 我 们 就 来 考虑 这 个 问 
题 。 这 个 问题 并 不 像 看 起 来 那么 复杂 。 首 先 ， 可 以 回忆 一 下 ， 网 络 的 输入 /输出 神经 元 的 数 


量 是 由 问题 外 部 描述 定义 的 。 所 以 ， 如 果 有 4 个 外 部 变量 作为 网 络 输入 ， 那 么 网 络 就 有 4 个 


输入 。 同 样 ， 如 果 网 络 有 7 个 输出 ， 那 么 网 络 的 输出 层 就 应 该 有 7 个 神经 元 。 最 后 ， 输 出 信 
号 所 期 望 的 特征 有 助 于 选择 输出 层 的 传输 函数 。 如 果 一 个 输出 要 么 是 - 1， 要 么 是 1， 那么 
该 输出 神经 元 就 可 以 用 对 称 硬 极 限 传输 函数 。 所 以 ， 单 层 网 络 结构 完全 由 问题 描述 决定 ， 包 
括 特定 的 输入 /输出 数 和 输出 信和 号 的 特征 。 

那么 ， 如 果 网 络 有 两 层 以 上 的 神经 元 时 ， 又 将 如 何 确定 各 层 的 神经 元 数目 ? 其 实 问题 的 
关键 在 于 外 部 问题 并 没有 直接 指明 隐 含 层 需 要 的 神经 元 数目 。 实 际 上 ， 精 确 琶 测 隐 含 层 所 需 
要 的 神经 元 的 数目 至 今 仍然 存在 一 些 在 理论 上 还 没有 解决 的 问题 。 这 个 问题 是 一 个 十 分 活 茎 
的 研究 领域 。 在 第 11 章 中 讨论 反 传 算法 时 ， 将 对 此 进行 深入 探讨 。 

至 于 网 络 中 的 神经 元 层 数 ， 大 多 数 实际 的 神经 网 络 仅仅 只 有 2 到 3 层 神经 元 ， 很 少 有 4 
层 或 更 多 层 。 

这 里 还 应 该 讨论 一 下 偏 置 值 的 使 用 问题 。 是 否 使 用 偏 置 值 是 可 以 选择 的 。 偏 置 值 给 网 络 
提供 了 额外 的 变量 ， 从 而 使 得 网 络 具 有 更 强 的 能 力 ， 事 实 也 的 确 是 如 此 。 例 并 ， 如 果 没 有 偶 
置 值 ， 当 网 络 输入 p 为 0 时 ， 一 个 神经 元 的 净 输 入 总 是 为 0。 这 是 不 希望 出 现 的 ， 可 以 遂 
过 用 偏 置 值 来 避免 。 本 书 将 在 第 3 章 、 第 4 章 和 第 5 章 中 讨论 偏 置 值 的 影响 。 
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在 后 面 的 各 章 中 ， 一 些 例题 和 演示 将 省 略 偏 置 信 。 在 一 些 情况 下 ， 这 种 简化 可 以 减少 网 
络 的 参数 。 如 果 只 有 两 个 变量 ， 非 常 容易 在 一 个 二 维 平 面 上 画 出 系统 的 收敛 情况 。 但 是 对 于 
3 个 或 更 多 个 变量 而 言 ， 显 示 系 统 的 状态 将 变 得 比较 困难 。 


3. 递归 网 络 
延 时 在 讨论 递归 网 络 前 ， 首 先 介 绍 一 些 简 单 的 构造 模块 。 第 一 种 是 延 时 模块 ， 如 图 
2-11 所 示 。 
延 时 
CN 
u(t) a(t) 
a(0) 


a(t)  u(t- 1) 
图 2-11 ” 延 时 模块 


延 时 输出 a(1) 由 输入 u(i) 根 据 下 式 计算 得 到 : 
a(t) = u(t - 1) (2.7) 
所 以 ， 输出 延 时 了 一 个 时 间 步 的 输入 (假设 时 间 以 离散 步 的 形式 更 新 ， 且 只 取 整 数值 )。 
等 式 (2.7) 要 求 在 :=0 时 对 输出 进行 初始 化 。 初 始 条 件 由 图 2-11 中 指向 延 时 块 底部 的 箭头 
来 表示 。 
积分 器 ” 另 一 种 将 用 于 第 15 章 至 第 18 章 中 的 连续 时 间 递 归 网 络 的 构造 模块 是 积分 器 ， 
如 图 2-12 BER: 


a(0) 
YJ 
a(t) = S u(t) dr + a(0) 


Æ 2-12 积分 器 模块 


积分 器 的 输出 a( i) 由 输入 u(t) 根 据 下 式 计算 得 到 : 
a(t) = | u(r)de + a(0) (2.8) 
初始 条 件 a(0) 由 指向 积分 器 模块 底部 的 箭头 来 表示 。 
递归 网 络 “ 利 用 上 述 模块 就 可 以 构造 出 递归 网 络 。 一 个 递归 网 络 是 一 个 带 反 馈 的 网 络 ， 
其 部 分 输出 连接 到 它 的 输入 。 这 与 前 面 所 讨论 的 没有 反馈 连接 的 严格 前 馈 网 络 有 很 大 不 同 。 
图 2.13 给 出 了 一 种 类 型 的 离散 时 间 递 归 网 络 。 
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a(002p  a(r-1)-2satlins(Wa(n -b) 
图 2-13 递归 网 络 


2-14 


在 该 网 络 中 ， 向 量 p 给 出 了 其 初始 条 件 ( 即 a(0) =p )。 网 络 根据 其 前 一 次 输出 计算 当前 


的 输出 : 
a(1) = satlins(Wa(0) + b) ,a(2) = satlins(Wa(1) + b),… 
递归 网 络 比 前 馈 网 络 在 本 质 上 具有 更 强 的 能 力 ， 它 可 以 表现 出 时 间 性 行为 。 本 书 的 第 3 


章 和 第 15 章 至 第 18 章 将 讨论 这 种 类 型 的 网 络 。 [245] 


2.3 小 结 
单 输入 神经 元 
输入 通用 神经 元 
p Ww n a 
i 
VLA l 
a=f(wp+b) 
多 输入 神经 元 
输入 多 输入 神经 元 





a=f(Wp+6) 
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输入 多 输入 神经 元 




































































a=f(Wp+b) 
传输 函数 
一 -一 
名 BK 输入 /输出 关系 E dg MATLAB 函数 
i a=0, n«O 
l om n" | 
iE tk BR BR RK | a-l, n20 hardlim 
T 一 一 一 IT 
=-l, n<0 
" m F 
对 称 硬 极限 函数 a2 41, n20 hardlims 
j 
线性 函数 a=n purelin 
| 420, n«0 
TRIER VE p X a=n, 0znxl ， satlin 
üzl, n»l | 
_ — 
az-1,n«-i1 
对 称 饱 和 线性 函数 | azn, -lensl satlins 
a=1, nol 
l 
对 数 -S E PRK alte” logsig 
双 曲 正切 $ 形 函数 | az= SIC. tansig 
à x0, n«O LZ . 
正 线性 函数 asn, n20 poslin 
一 一 a=1， 具 有 最 大 n 的 神经 元 [C| 
2-17 | | 
竞争 西数 a =0， 所 有 其 他 神经 元 compet 
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神经 元 层 





延 时 模块 





$ 个 神经 元 的 层 





ai =fi(Wp+b) 


a= fíWp-4 b) 


a2-f?(W?al +b?) aj = f 3 (W3a2+b3) 
a} = £3 (W3f2(W2f!(Wip+b!)+b2) +b3) 


延 时 


u(t) a(t) 


Ex 


a(0) 


a(t) = u(t- 1) 
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积分 器 模块 
积分 器 
(CN 
u(t) a(t) 
a(0) 
YY 
a(t) =f u(t) dt + a(0) 
递归 网 络 





a(0)=p  a(r-1)-satlins(Wa(r)-- b) 


如 何 选取 一 种 网 络 结构 


应 用 问题 的 描述 从 如 下 几 个 方面 非常 有 助 于 定义 网 络 的 结构 
1) 网 络 的 输入 个 数 = 应 用 问题 的 输入 数 ， 
2) 输出 层 神经 元 的 数目 = 应 用 问题 的 输出 数目 ; 

[2-19 3) 输出 层 的 传输 函数 选择 至 少 部 分 依赖 于 应 用 问题 的 输出 描述 。 


2.4 例题 


P2.1 一 个 单 输入 神经 元 的 输入 是 2.0， 其 权 值 是 2.3， 偏 置 值 是 - 3。 
(i) 传输 函数 的 净 输 入 是 多 少 ? 
(ii) 神经 元 的 输出 是 多 少 ? 
解 
Ci) 传输 函数 的 网 络 输出 由 下 式 给 出 : 
n= Wp +b = (2.3)(2) 十 (- 3) = 1.6 
(ii) 因为 未 指定 传输 函数 ， 所 以 不 能 确定 该 神经 元 的 输出 。 
P2.2 如 果 P2.1 中 的 神经 元 分 别 具 有 如 下 传输 函数 ， 请 问 其 输出 值 分 别 是 多 少 ? 
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(i) 硬 极限 函数 
(ii) 线性 函数 
(iii) 对 数 -S 形 ( logsig ) BRK 


(i) 对 硬 极 限 传输 函数 有 
a = hardlim(1.6) = 1.0 
(ii) 对 线性 传输 函数 有 
a = purelin(1.6) = 1.6 
(iii) 对 对 数 -S 形 传输 函数 有 
a = logsig(1.6) = Uc - 0.8320 


请 用 MATLAB 和 目录 MININNET 下 的 函数 logsig 验证 此 结果 (参见 附录 B). 

P2.3 给 定 一 个 具有 如 下 参数 的 两 输入 神经 元 : 5 =1.2,W=[3 2],p=[-5 6]7, 试 
依据 下 列传 输 函 数 计算 神经 元 输出 : 

Ci) 对 称 硬 极限 传输 函数 。 

(ii) 饱和 线性 传输 函数 。 2:20 

(ii) 双 曲 正切 S 形 (tansi) 传 输 函 数 。 

解 

首先 计算 净 输 入 n: 


n = Wp« b = [3 zl » + (0.2) 2- 1.8 





现 针对 每 种 传输 函数 计算 该 神经 元 的 输出 。 

(i) a= hardlims( - 1.8) 2 - 1 

(ii) a= satlin( -1.8) 20 

(iii) a = tansig( — 1.8) = - 0.9468 

P2.4 现 有 一 个 单 层 神经 网 络 ， 具 有 6 个 输入 和 2 个 输出 。 输 出 被 限制 为 0 到 1 之 间 的 
连续 值 。 叙 述 该 网 络 的 结构 ， 请 说 明 : 

(i) 需要 多 少 个 神经 元 ? 

(ii) 权 值 矩阵 的 维 数 是 多 少 ? 

(i) 能 够 采用 什么 传输 函数 ? 


(iv) 需要 采用 偏 置 值 吗 ? [2:21] 
解 
该 问题 的 求解 结果 如 下 : 


(i) 需要 两 个 输出 神经 元 ， 每 个 输出 一 个 。 

(ii) 对 应 2 个 神经 元 和 6 个 输入 ， 权 值 矩 阵 应 有 2 行 6 列 (乘积 Wp 是 一 个 二 元 向 量 )。 
(ai) 根据 前 面 所 讨论 的 传输 函数 性 质 ， 选 用 logsig 传输 函数 是 最 适合 的 . 

(iv) 题 中 未 能 给 出 足够 的 条 件 以 确定 是 否 需要 偏 置 值 。 
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2.5 ARE 


本 章 介 绍 了 一 种 简单 的 人 工 神 经 元 ， 并 展示 了 如 何 通过 不 同 的 连接 方式 将 一 些 神经 元 组 
连接 起 来 构造 出 不 同 的 神经 网 络 。 本 章 的 一 个 主要 目的 是 介绍 一 些 基本 表示 方法 。 在 随后 各 
章 中 更 为 详细 讨论 各 种 神经 网 络 时 ， 可 能 还 需 回 到 第 2 章 继续 熟悉 这 些 基本 的 表示 方法 。 
本 章 并 未 对 所 讨论 的 网 络 进行 完整 的 介绍 。 完 整 的 介绍 将 在 后 面 各 章 展 开 。 在 第 3 章 
中 ,将 会 给 出 使 用 本 章 一 些 网 络 的 一 个 简单 例子 ， 以 展示 网 络 的 实际 运行 情况 。 第 3 章 演示 
22) 的 网 络 是 后 面 所 讨论 的 网 络 类 型 的 典型 代表 。 





习题 
E2.1 一 个 单 输入 神经 元 的 输入 是 2.0， 其 输入 连接 的 权 值 是 1.3， 偏 置 值 是 3.0。 如 果 它 
的 输出 分 别 为 如 下 一 些 值 ， 请 根据 表 2-1 回答 ， 它 分 别 可 以 采用 哪些 传输 函数 ? 
(i) 1.6 
(ii) 1.0 
(iii) 0.9963 
(iv) -1.0 
E2.2 假设 一 个 具有 偏 置 值 的 单 输入 神经 元 ， 现 希望 当 输 入 值 小 于 3 时 输出 是 - 1， 而 
输入 值 大 于 等 于 3 时 ， 其 输出 值 为 + 1。 请 问 ; 
Ci) 需要 什么 类 型 的 传输 函数 ? 
(ii) 偏 置 值 应 该 取 多 大 ? 它 与 输 和 人 连接 的 权 值 相关 吗 ? 如 果 相 关 ， 如 何 相关 ? 
(iii) 通过 指定 传输 函数 的 名 称 、 描 述 偏 置 值 和 权 值 来 概括 该 网 络 。 请 画 出 该 网 
络 的 图 形 。 用 MATLAB 验证 网 络 的 性 能 。 
E2.3 给 定 一 个 具有 如 下 权 值 矩阵 和 输入 向 量 的 两 输入 神经 元 : W=[3 2], 有 是 p=[-5 7j。 
希望 其 输出 值 为 0.5。 请 问 是 否 存 在 偏 置 值 和 传输 函数 的 某 种 组 合 可 以 满足 这 一 要 求 ? 
(i) 若 偏 置 值 为 0， 表 2-1 中 有 能 够 实现 上 述 功 能 的 传输 函数 吗 ? 
(ii) 如 果 使 用 线性 传输 函数 ， 存 在 能 够 实现 上 述 功能 的 偏 置 值 吗 ”如果 有 ， 请 
说 明 偏 置 值 是 什么 ? 
( 道 ) 如 果 使 用 对 数 -S 形 传输 函数 ， 存 在 能 够 实现 上 述 功 能 的 偏 置 值 吗 ? RA, 
请 说 明 偏 置 值 是 什么 ? 
Civ) 如 果 使 用 对 称 硬 极限 传输 函数 ， 存 在 能 够 实现 上 述 功能 的 偏 置 值 吗 ?” 如果 
有 ， 请 说 明 偏 置 值 是 什么 ? 
E2.4 一 个 两 层 神经 网 络 有 4 个 输入 和 6 个 输出 。 输 出 值 为 取 值 0 到 1 之 间 的 连续 值 。 
[2-23 对 于 该 网 络 的 结构 可 以 说 些 什么 ”特别 是 ; 
(i) 每 一 层 中 需要 有 和 多少 神经 元 ? 
(ii) 第 一 层 和 第 二 层 的 权 值 矩阵 分 别 是 几 维 ? 
(iii) 每 一 层 可 用 哪 种 类 型 的 传输 函数 ? 
3-24 | (iv) 每 层 中 都 需要 偏 置 值 吗 ? 


第 3 章 一 个 说 明 性 实例 


3.1 目的 


读者 可 以 将 这 一 章 看 作 是 后 面 各 章 的 一 个 前 奏 。 这 里 将 给 出 一 个 模式 识别 的 简单 问题 ， 
并 说 明 如 何 用 三 种 不 同 结构 的 神经 网 络 来 求解 这 个 问题 。 这 将 提供 一 个 了 解 如 何 利 用 上 一 章 
所 给 出 的 网 络 结构 解决 实际 问题 的 机 会 (尽管 这 个 实例 过 于 简单 ) 。 不 过 ， 也 不 要 期 望 通过 本 
章 的 学 习 就 可 以 完全 理解 这 三 种 网 络 。 这 里 之 所 以 直接 地 给 出 它们 ， 仅 仅 是 希望 读者 能 够 对 
神经 网 络 的 功能 有 一 个 感性 认识 ， 同 时 也 想 说 明 对 给 定 问题 的 求解 有 许多 种 类 型 的 网 络 可 供 
EH. 

在 其 余 各 章 还 会 详细 讨论 本 章 所 给 出 的 三 种 网 络 ， 前 馈 网 络 ( 这 里 以 感知 机 为 代表 )、 竞 
争 网 络 ( 这 里 以 Hamming 网 络 为 代表 ) 以 及 递归 联想 存储 网 络 (这 里 以 Hopfield 网 络 为 代表 )。 


3.2 理论 和 实例 


3.2.1 问题 描述 


某 商 贩 有 一 个 存储 各 种 水 果 和 蔬菜 的 货 仓 。 当 将 水 果 放 进货 仓 时 ， 不 同类 型 的 水 果 可 能 
会 混 淆 在 一 起 ， 所 以 商贩 非常 希望 能 够 有 一 台 能 够 帮 他 将 水 果 自 动 分 类 摆 放 的 机 器 。 假 设 从 
水 果 外 车 的 地 方 到 货 仓 之 间 有 一 条 传送 带 。 传 送 带 要 通过 一 组 特定 的 传感器 ， 这 组 传感器 可 
以 分 别 测 量 水 果 的 三 个 特征 : 外 形 、 质 地 和 重量 (如 下 图 )。 这 些 传 感 器 功能 比较 简单 。 如 果 
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水 果 基 本 上 是 圆 形 的， 外 形 传感器 的 输出 就 为 1; 如 果 水 果 更 接近 于 椭圆 ， 那 么 外 形 传感器 
的 输出 就 为 - 1。 如 果 水 果 表 面 光滑 ， 质 地 传感器 的 输出 就 是 1; 如 果 水 果 表 面 比 较 粗 糙 ， 
那么 质地 传感器 的 输出 就 为 - 1。 当 水 果 重 量 超过 1 Wij, 重量 传感器 的 输出 为 1; KRE 
BET 1 磅 时 ， 重量 传 感 器 的 输出 为 - 1。 

然后 ， 这 三 个 传感器 的 输出 将 会 输入 到 神经 网 络 。 网 络 的 功能 就 是 要 确定 传送 带 上 是 什 
么 类 型 的 水 果 ， 这 样 才能 把 不 同类 型 的 水 果 分 别 送 到 相应 的 储存 仓 内 。 为 了 使 问题 更 加 简 
单 ， 现 假设 传送 带 上 只 有 两 种 类 型 的 水 果 : 苹果 和 橘子 。 

当 每 个 水 果 通 过 这 些 传感器 后 ， 它 就 可 以 用 一 个 如 式 (3.1) 所 示 的 三 维 向 量 来 表示 。 该 








”向 量 的 第 一 个 元 素 表示 外 形 ， 第 二 个 元 素 表示 质地 ， 第 三 个 元 素 表示 重 量 ; 








外 形 
p = | 质地 (3.1) 
重量 
所 以 ， 一 个 标准 橘子 可 表示 为 : 
1 
pl = d (3.2) 
-i 





一 个 标准 苹果 可 表示 为 


(3.3) 








-1 
对 传送 带 上 的 每 个 水 果 而 言 ， 神 经 网 络 都 可 接收 到 一 个 三 维 输入 向 量 ， 并 且 必 须 判 断 它 
是 一 个 橘子 (p,) 还 是 一 个 苹果 (P))。 
既然 对 这 个 简单 的 普通 模式 识别 问题 进行 了 定义 ， 下 面 首先 讨论 求解 该 问题 所 要 用 到 的 
三 种 不 同类 型 的 神经 网 络 。 对 问题 的 简化 有 助 于 理解 这 些 网 络 的 工作 原理 。 
3.2.2 感知 机 
这 里 要 讨论 的 第 一 个 网 络 就 是 感知 机 。 图 3-1 给 出 了 采用 对 称 硬 极 限 传输 函数 hardlims 
的 单 层 感知 机 。 


输入 对 称 硬 极限 层 





a = hardlims (Wp + b) 


图 3-1 单 层 感知 机 
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1. 两 输入 的 情况 
在 用 感知 机 求解 橘子 /苹果 问题 之 前 ( 它 需 要 一 个 三 输入 感知 机 ， 也 即 R23), ALE 
研究 一 下 两 输入 单 神经 元 感知 机 (R = 2) 的 能 力 。 很 容易 用 图 示 的 方法 对 其 进行 分 析 。 两 输 
人 感知 机 如 图 3-2 所 示 。 
输入 两 输入 神经 元 
[Nf N 


Pi Wii a 
n 
Pr Wi b 
VLA l 
a = hardlims (Wp4 b) 


图 3-2 两 输入 的 单 神经 元 感知 机 


单 神经 元 感知 机 可 将 输入 向 量 分 成 两 类 。 例 如 ， 对 一 个 两 输入 感知 机 而 言 ， 如 果 wi, 
=-1, Ho wia5-1, AA 

a = hardlims(n) = hardlims([-1 1]p- 6) (3.4) 

所 以 ， 如 果 权 值 矩 阵 (这 里 是 一 个 只 有 一 行 的 向 量 ) 与 输入 向 量 的 内 积 大 于 等 于 - 5， 感 

知 机 的 输出 为 1; 如 果 权 值 向 量 和 输入 的 内 积 小 于 - 5， 那 么 感知 机 的 输出 为 - 1。 这 就 将 输 

人 空间 划分 为 两 个 部 分 ， 图 3-3 RAT% b= -1 的 情况 下 ， 该 感知 机 对 输入 空间 的 这 种 划 
分 情况 。 图 中 的 斜 线 表 示 净 输入 n 等 于 0 的 各 点 : 

n=[-1 ljp-1=0 (3.5) 





图 3-3 感知 机 判定 边界 


请 注意 该 判定 边界 总 是 和 权 值 矩阵 正 交 ， 且 边界 的 位 置 随 b 的 改变 而 上 下 移动 。( 一 般 
来 说 ，W 是 由 多 个 行 向 量 组 成 的 矩阵 ， 每 一 行 向 量 的 使 用 方法 都 如 式 (3.5) 所 示 。W 的 每 一 
行 都 会 形成 一 个 判定 边界 。 对 该 问题 的 详细 讨论 请 参见 第 4 章 )。 阴 影 区 包含 的 是 所 有 网 络 
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_34 ”输出 为 1 的 输入 向 量 ， 而 对 其 他 输入 向 量 而 言 ， 该 感知 机 的 输出 都 为 - 1。 
所 以 ， 单 神经 元 感知 机 的 关键 性 质 是 它 能 够 将 输入 向 量 分 为 两 类 。 类 与 类 之 间 的 判定 
边界 由 下 式 给 定 ; 
Wp + b= 0 (3.6) 


因为 边界 必须 是 线性 的 ， 所 以 单 层 感知 机 只 能 用 于 识别 一 些 线性 可 分 (能 够 用 一 个 线性 
边界 区 分 ) 的 模式 。 这 些 概 念 将 在 第 4 章 进行 更 加 详细 的 讨论 。 
2. 模式 识别 实例 
现在 回 到 前 面 所 给 出 的 橘子 / 蔷 果 模式 识别 问题 。 因 为 仅仅 只 有 两 个 类 别 ， 所 以 可 采用 
单 神经 元 感知 机 。 向 量 输入 是 三 维 的 ( R = 3)， 该 感知 机 的 输入 /输出 关系 由 下 式 描述 : 
Py 
a = hardlims| (wy; wi. wial| Pa | +6 (3.7) 
P3 
现在 希望 选择 适当 的 偏 置 值 5 和 权 值 矩阵 元 素 ， 使 得 该 感知 机 能 够 将 革 果 和 橘子 区 分 
开 来 。 比 如 说 ， 如 果 输 和 是 苹果 时 ， 和 希望 该 感知 机 的 输出 为 1; RR ARN, BAK 
感知 机 的 输出 为 - 1。 下 面 将 讨论 如 何 应 用 图 3-3 所 给 出 的 概念 ， 找 到 -个 线性 边界 将 橘子 
和 苹果 区 分 开 来 。 两 个 标准 向 量 (请 参考 式 (3.2) 和 式 (3.3) ) 的 空间 表示 如 图 3-4 所 示 。 从 图 
35 中 可 以 看 出 对 称 区 分 这 两 个 向 量 的 线性 边界 是 p, 和 p, 两 个 平面 。 


P3 


Pi 
pl ( MF) pi 苹果 ) 
图 3-4 标准 向 量 
p, 和 p, 两 个 平面 就 是 所 求 的 判定 边界 ， 可 以 将 其 分 别 表示 为 
p,-0 (3.8) 
或 
Py 

[0 1 0]| pp |} +0=0 (3.9) 
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由 此 可 知 权 值 矩阵 和 偏 置 值 分 别 是 : 
W=[0 1 0],6=0 (3.10) 
权 值 矩阵 和 判定 边界 正 交 ， 且 指向 含有 标准 模式 p, (苹果 ) 的 空间 区 域 ， 在 该 区 域 中 感 
知 机 的 输出 为 1。 由 于 判定 边界 通过 坐标 轴 原 点 ， 所 以 偏 置 值 为 0。 
下 面 将 对 该 感知 机 模式 分 类 器 进行 测试 。 








当 输 和 人 是 橘子 时 ， 有 
a = hardlims| [0 1 中- +0|=- 1467) (3.11) 
当 输 入 是 苹果 时 ， 有 
a = hardlims = | [0 1 0] | + 0 | = IGEX) (3.12) 
-1 














由 此 可 以 看 出 ， 该 感知 机 能 够 正确 区 分 苹果 和 橘子 。 但 是 ， 当 将 一 个 并 不 是 十 分 标准 的 
橘子 放 在 分 类 器 中 ， 感 知 机 的 输出 又 将 会 是 什么 呢 ? 如 果 一 个 椭圆 形 的 橘子 通过 传感器 ， 那 
么 感知 机 的 输入 向 量 为 
-1 
-1 
-1 


p= (3.13) 








网 络 的 响应 将 是 

-1 

-i 

-1 
实际 上 ， 任 何 输入 向 量 如 果 相 对 于 苹果 的 标准 向 量 而 言 ， 更 加 接近 于 橘子 的 标准 向 量 

( 按 欧 基 里 德 距 离 ) ， 那 么 该 输入 向 量 都 将 被 划 为 橘子 一 类 (反之 亦 然 )。 


要 试验 感知 机 网 络 和 苹果 / 桶 子 分 类 问题 ， 可 使 用 Neural Network Design Demon- 
stration Perceptron Classification( nnd3pc) 。 


[0 1 0] +0|=- 1GR- T) (3.14) 


a = hardlims 

















该 实例 阐明 了 感知 机 网 络 的 某 些 特征 ， 但 对 感知 机 并 没有 进行 深入 全 面 的 研究 。 后 面 第 
4 章 到 第 12 章 还 会 对 该 网 络 及 其 变形 进行 深入 讨论 。 这 里 先 简要 介绍 一 下 今后 要 讨论 的 问 
E. 
在 苹果 /杆子 分 类 问题 中 ， 可 以 通过 选择 明确 划分 模式 的 判定 边界 用 图 形 方式 设计 一 个 
网 络 。 但 在 实际 问题 中 ， 如 果 输 入 空间 维 数 较 高 ， 又 将 如 何 设计 网 络 呢 ? 第 4 章 、 第 7 章 、 
第 10 章 和 第 11 章 将 介绍 用 一 组 反映 网 络 行为 的 实例 训练 网 络 的 学 习 算法 ， 以 解决 复杂 问 
题 。 
单 层 感知 机 的 关键 特性 是 它 构造 了 一 个 线性 判定 边界 对 输入 向 量 进行 分 类 。 但 是 如 果 输 
入 类 别 不 能 用 线性 边界 进行 划分 ， 又 将 如 何 呢 ?这 个 问题 将 在 第 11 章 讨论 ， 其 中 将 介绍 一 
种 能 够 求解 任意 复杂 度 分 类 问题 的 多 层 感知 机 。 





[$6 
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3.2.3 Hamming 网 络 


下 面 将 要 讨论 的 是 Hamming 网 络 ![ Lipp87]. ERS! ARE IR A A TTE 
的 (问题 中 输入 向 量 的 每 个 元 素 只 能 是 两 个 可 能 值 中 的 一 个 ， 这 里 取 -1 和 + 1 两 个 值 )。 由 
于 该 网 络 同时 采用 了 在 第 2 章 中 所 介绍 的 前 馈 层 和 递归 (反馈 ) 层 ， 因 此 该 网 络 有 许多 特殊 的 
特性 。 标 准 的 Hamming 网 络 如 图 3-5 所 示 。 请 注意 : 图 中 第 一 层 的 神经 元 的 数目 和 第 二 层 
的 神经 元 数 旧 相同 。 

Hamming 网 络 的 目标 是 判定 哪个 标准 向 量 最 接近 于 输入 向 量 。 判 定 结果 由 递归 层 的 输 
出 表示 。 每 个 标准 模式 均 对 应 递归 层 中 的 一 个 神经 元 ， 当 递归 层 收 敛 后 ， 递 归 层 中 只 有 一 个 
神经 元 的 输出 值 为 非 0 值 ， 该 神经 元 指明 了 哪 一 个 标准 模式 与 输入 向 量 最 接近 。 下 面 将 对 两 
层 Hamming 网 络 进行 深入 研究 。 


前 镇 层 递归 层 





a! = purelin(W'p + b!) a(0)-2a! a2(t+1) = poslin( W^aXn) 


图 3-5 Hamming 网 络 
1. 前 馈 层 
38 前 馈 层 用 于 实现 每 个 标准 模式 和 输入 模式 之 间 的 相关 检测 或 求 内 积 (参见 式 (3.,17))。 为 
了 使 得 前 馈 层 能 够 完成 其 功能 ， 可 以 用 标准 模式 设置 其 权 值 矩阵 的 行 ， 该 权 值 矩阵 用 连接 和 抵 
EW 表示 。 对 于 苹果 /橘子 实 例 而 言 ， 有 


了 
W! -| -| -1 -| (3.15) 
| p 1 1 -1 


前 馈 层 采用 的 是 线性 传输 函数 ， 偏 置 值 向 量 中 的 每 个 元 素 均等 于 R。 其 中 ，R 是 输入 
向 量 中 的 元 素 个 数 。 据 此 ， 可 以 将 该 实例 中 偏 置 值 向 量 设置 为 


b = [3] (3.16) 
3 
用 权 值 矩阵 和 偏 置 值 向 量 的 这 些 选 择 ， 前 馈 层 的 输出 为 
T T 
oA wt | Di ^] _ jpip+3 
a = Weer -| 3! [pp+3 


注意 ; 前 馈 层 的 输出 等 于 输入 和 每 个 标准 模式 的 内 积 加 尺 。 对 于 这 两 个 等 长 ( 范 数 ) 向 


(3.17) 
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量 而 言 ， 内 积 在 两 个 向 量 指向 同方 向 时 最 大 ， 指 向 相反 时 值 最 小 (这 个 概念 将 在 第 5 章 、 第 
8 章 和 第 9 章 进行 深入 讨论 )。 把 内 积 加 上 R 是 为 了 保证 前 馈 层 的 输出 不 会 部 是 负数 值 ， 这 
是 递归 层 正常 操作 所 必需 的 。 
之 所 以 称 该 网 络 为 Hmming 网 ， 是 因为 在 前 馈 层 中 具有 最 大 输出 的 神经 元 正好 对 应 于 
与 输入 模式 Hamming 距离 最 近 的 标准 模式 (两 个 向 量 的 Hamming 距离 等 于 其 向 量 中 不 同 的 
元 素 个 数 。 请 注意 这 只 是 针对 于 二 进 制 向 量 而 言 的 )。 请 读者 自行 验证 一 下 前 债 层 的 输出 是 
BST 2R 减 去 标准 模式 和 输入 模式 之 间 的 两 倍 Hamming 距离 。 
2. 递归 层 
Hamming 网 的 递归 层 就 是 所 谓 的 “竞争 ” 层 。 该 层 的 神经 元 用 前 馈 层 的 输出 进行 初始 化 ， 
此 输出 指出 标准 模式 和 输入 向 量 之 间 的 关系 。 然 后 递归 层 中 的 神经 元 相互 竞争 以 决定 谁 是 胜 
利 者 。 竞 争 后 只 有 一 个 神经 元 的 输出 值 不 等 于 0。 竞争 取胜 的 神经 元 就 表示 提供 给 网 络 的 输 
ARRE) (比如 在 我 们 的 实例 中 ， 就 是 苹果 和 桥 子 两 种 类 别 )。 描 述 竞 争 的 等 式 为 
a(0) = a! (初始 条 件 ) (3.18) 
和 
a(t 4 1) = poslin W^g( 1)) (3.19) 
请 注意 : 这 里 的 上 标 表示 第 二 层 ， 而 不 是 20. poslin 传输 函数 对 于 正 值 而 言 是 线性 
函数 ， 对 于 负 值 而 言 取 值 为 0。 权 值 矩 阵 W 的 形式 为 
w = | ni (3.20) 
-e€ 1 
JP eANEI1/CG -1) 的 一 个 数 ，5 ARRERA XX. GEAREBULH ATTA eub 
须 小 于 1/CS - 1887) 
递归 层 的 每 次 迭代 过 程 可 以 用 下 式 表示 : 


; {ft e |- bu 
Cr +1) = posin(| 7 1 a(t) = pas al) ead) (3.21) 


从 上 式 可 以 看 出 ， 向 量 中 每 个 元 素 都 减 去 另 一 个 元 素 的 一 部 分 ， 而 减少 的 比例 相同 ， 均 
为 se。 由 此 可 知 ， 具 有 较 大 值 的 元 素 减 去 的 量 较 少 ， 而 具有 较 小 值 的 元 素 减 去 的 量 较 大 ， 这 
将 导致 元 素 值 的 大 小 差别 进一步 扩大 ， 最 终 使 得 除了 初始 值 最 大 的 元 素 的 值 继续 保持 较 大 的 
值 之 外 ， 其 他 元 素 的 值 将 逐步 变 为 0。 而 输出 值 大 于 0 的 元 素 所 对 应 的 神经 元 便 对 应 于 以 
Hamming 距离 和 输入 模式 最 靠近 的 标准 模式 。 

这 里 将 再 次 以 前 面 测试 感知 机 的 椭圆 形 橘子 为 例 进 一 步 说 明 Hamming 网 络 的 机 理 。 一 
个 椭圆 形 橘子 可 以 用 向 量 表示 为 : 


(3.22) 





前 馈 层 的 输出 为 : 


e de e% 





3-11 
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这 就 是 递归 层 的 初始 化 条 件 。 
递归 层 的 权 值 矩阵 由 式 (3.20) 给 出 ， 其 中 es= 1/2( 实 际 上 ， 这 里 也 可 采用 其 他 任何 小 于 


1 的 数 )。 递 归 层 的 第 一 次 迭代 得 到 
i 1 -0.5 || 4 
pollos 1 Jio 


a^(1) = poslin(W2a(0)) = 3 3 (3.24) 
posin | |). | | 
0 0 
第 二 次 迁 代 结果 为 
ji 1 -0.5||3 
pose 0.5 1 Jio 
a’(2) = poslin(W’a’(1)) = (3.25) 


ee 


由 于 递归 层 在 后 面 的 迭代 过 程 中 得 到 的 都 是 同样 的 结果 ， 这 表明 网 络 已 经 收敛 。 这 时 只 有 
第 一 个 神经 元 的 输出 为 非 0 值 ， 因 此 选择 第 一 个 神经 元 所 代表 的 标准 模式 (橘子 ) 作 为 匹配 结果 
(al 的 第 一 个 元 素 是 (pf p + 3))。 由 于 橘子 标准 向 量 和 该 输入 模式 的 Hamming 距离 为 1， 而 苹果 
标准 向 量 和 该 输入 模式 的 Hamming 距离 为 2， 据 此 可 以 看 出 该 网 络 的 识别 结果 是 正确 的 。 


要 试验 Hamming 网 络 和 蔷 果 / 桶 子 分 类 问题 ， 请 使 用 Neural Network Design 
Demonstration Hamming Classification( nnd3hamc) 。 





有 很 多 网 络 都 是 按 Hamming 网 络 的 相同 原理 工作 ， 也 即 在 内 积 操作 层 (前 馈 层 ) 之 后 紧 
跟 一 个 动态 竞争 层 。 第 13 章 到 第 16 章 将 讨论 这 些 竞争 网 络 。 这 些 网 络 又 称 自 组 织 网 络 ， 它 
们 能 够 根据 所 提供 的 输入 调节 其 标准 向 量 。 


3.2.4 Hopfield 网 络 


本 章 最 后 要 简单 讨论 的 网 络 就 是 Hopfield 网 络 。 它 是 有 些 类 似 于 Hamming 网 络 递归 层 
的 一 种 递归 网 络 ， 但 它 能 有 效 地 实现 Hamming 网 络 的 两 层 所 完成 的 工作 。Hopfield 网 络 如 
图 3-6 所 示 。( 实 际 上 该 图 表示 的 是 标准 Hopfield 网 络 的 一 种 变形 。 使 用 这 个 模型 是 因 其 比 
较 简 单 ， 同 时 也 有 利于 阐明 一 些 基本 概念 )。 
这 个 网 络 利用 输入 向 量 对 网 络 中 的 神经 元 进行 初始 化 ， 然 后 网 络 不 断 选 代 直 至 收敛 。 如 果 
网 络 运行 正确 ,那么 最 终 的 输出 结果 将 是 一 个 标准 向 量 。 所 以 ，Hamming 网 络 是 用 取 值 不 为 0 
的 神经 元 表明 选择 的 是 哪个 标准 模式 ， 而 Hopfield 网 络 则 生成 一 个 标准 模式 作为 其 输出 。 
描述 该 网 络 操作 的 等 式 为 
a(0) = p (3.26) 
和 
a(t +1) = satlins(Wa(z) + b) (3.27) 
其 中 satlins 为 [ - 1，1] 区 间 上 的 线性 传输 函数 ， 当 输入 大 于 IR, RRC 1; 当 输 人 
小 于 -1 时 ， 也 数 输出 恒 为 ~- 1。 
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a(0)=p = a(t+ 1) = satlins(Wa(r)+b) 


图 3-6 Hopfield 网 络 
Hopfield 网 络 的 权 值 矩阵 和 偏 置 值 向 量 的 设置 要 比 Hamming 网 络 复杂 得 多 ， 在 Ham- 
ning 网 络 中 前 馈 层 的 权 值 为 标准 模式 。 本 书 将 在 第 18 章 详细 讨论 Hopfield 的 设计 过 程 。 
为 了 说 明 该 网 络 的 工作 过 程 ， 这 里 不 妨 指定 一 个 能 解决 苹果 /橘子 识别 问题 的 权 值 矩阵 
和 偏 置 值 矩 阵 。 它 们 由 下 式 给 出 : 
0.2 0 O 0.9 
0 | (3.28) 
-0.9 


0 1.2 0 
0 0 0.2 

尽管 计算 Hopfield 网 络 的 权 值 和 偏 置 值 的 过 程 并 不 是 本 章 要 讨论 的 内 容 ， 但 还 是 可 以 看 
出 式 (3.28) 为 什么 可 以 解决 苹果 /橘子 问题 的 一 些 特征 。 

这 里 希望 网 络 输出 要 么 收敛 于 橘子 的 标准 模式 pl ， 要 么 收敛 于 苹果 的 标准 模式 p,。 两 个 
模式 的 标准 向 量 的 第 一 个 元 素 均 为 1， 第 三 个 元 素 均 为 - 1， 两 者 的 不 同 之 处 在 于 第 二 个 元 素 。 
所 以 ， 无 论 给 网 络 输入 什么 模式 ， 均 希望 输出 模式 的 第 一 个 元 素 收 依 于 1， 第 三 个 元 素 收敛 于 
- 1， 而 第 二 个 元 素 要 人 么 收敛 于 1， 要 么 收敛 于 - 1， 使 之 最 接近 输入 向 量 的 第 二 个 元 素 。 

用 式 (3.28) 给 出 的 参数 ， 可 以 将 Hopfield 网 络 的 操作 等 式 写成 : 

a,(t +1) = satlins (0.2a,(t) + 0.9) 
a(t +1) = satlins (1.2a2(t)) (3.29) 
a3(t +1) = satlins (0.2a3(t) - 0.9) 

无 论 a.(0) 的 初始 值 是 多 少 ， 第 一 个 元 素 的 值 将 不 断 增加 直到 最 后 的 值 沟 1， 第 三 个 元 
素 将 不 断 减 少 直 到 最 后 的 值 为 - 1。 第 二 个 元 素 乘 上 一 个 大 于 1 的 数 。 所 以 如 果 第 二 个 元 素 
GEI BS nA, CMAN - 1; 反之 ， 如 果 初 始 值 为 正 数 ， 它 将 收敛 于 1. 

值得 注意 的 是 :(W，b) 的 取 值 并 不 是 惟一 的 。 读 者 可 以 试 试 其 他 的 取 值 ， 看 看 是 否 能 
够 完成 预期 的 工作 要 求 。 

这 里 再 次 用 椭圆 形 的 橘子 实例 对 Hopfield 网 络 进行 测试 。 前 三 个 迭代 过 程 结束 时 ，Hop- 
field 网 络 的 输出 分 别 为 ; 

0.7 1 
, all) -| a(2) j^ 
-1 -1 


W= 











1 
-1 (3.30) 
-1 


-1 
-1 
-1 


; a(3) = 








a(0) = 








3-12 


3-13 
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尽管 和 Hamming 网 络 和 感知 机 网 络 的 工作 方式 不 同 ，Hopfield 网 络 同样 也 最 终 收敛 于 
橘子 模式 。 感 知 机 只 有 一 个 取 值 为 - 1( 橘 子 ) 或 1( 革 果 ) 的 输出 。Hamming 网 络 中 也 只 有 一 
个 取 值 非 0 的 神经 元 表示 哪个 标准 模式 为 最 佳 匹配 。 如 果 第 一 个 神经 元 取 非 0 值 ， 表 示 输 入 
模式 属于 橘子 类 别 ; 如 果 第 二 个 神经 元 取 非 0 值 ， 则 表示 输入 模式 属于 苹果 类 别 。 在 Hop- 
field 网 络 中 ， 标 准 模式 本 身 将 会 出 现在 网 络 的 输出 上 。 


P is 要 试验 Hopfield WH f # R/T DRM AB, HRA Neural Network Design 
P^ * Demonstration Hopfield Classification( nnd3hopc) . 





尽管 本 章 介绍 了 一 些 神经 网 络 ， 请 不 要 就 此 止步 。 实 际 上 ， 还 有 很 多 问题 有 待 深 人 讨 
论 。 例 如 : 如 何 知 道 网 络 最 终 一 定 会 收敛 ? 递归 网 络 有 时 也 可 能 出 现 振 荡 情 况 和 混沌 行为 。 
同样 ， 这 里 也 没有 讨论 设计 权 值 矩阵 和 偏 置 值 向 量 的 一 般 方法 。 所 有 这 些 问 题 都 将 在 第 17 
章 和 第 18 章 中 讨论 。 


3.3 结束语 


本 章 介绍 的 三 种 网 络 展示 了 全 书 将 要 讨论 的 结构 的 许多 共同 特性 。 

感知 机 仅仅 是 将 在 第 4 章 、 第 7 章 、 第 11 章 和 第 12 章 中 讨论 的 前 馈 网 络 的 一 个 实例 。 
在 这 些 前 馈 网 络 中 ， 网 络 的 输出 直接 根据 网 络 的 输入 计算 出 来 ， 并 不 涉及 到 反馈 。 前 馈 网 络 
可 以 用 于 诸如 苹果 / 权 子 区 分 之 类 的 模式 识别 问题 ， 也 可 用 于 函数 拟 合 问题 (请 参见 第 11 
章 )。 在 自 适 应 滤波 (参见 第 10 章 ) 和 自动 控制 等 领域 均 有 函数 拟 合 的 应 用 场合 。 

这 里 以 Hamming 网 络 为 代表 的 竞争 网 络 有 两 个 主要 特点 。 其 一 是 它们 计算 出 已 存储 的 
标准 模式 和 输入 模式 之 间 的 距离 测度 。 其 二 是 通过 竞争 决定 哪 一 个 神经 元 表示 的 标准 模式 最 
接近 于 输入 模式 。 在 第 14 章 到 第 16 章 所 讨论 的 竞争 网 络 中 ， 当 给 网 络 提供 新 的 输入 时 ， 要 
对 标准 模式 进行 调整 。 这 种 自 适 应 网 络 学 习 如 何 将 输 和 人 聚 类 到 不 同 的 类 别 。 

诸如 Hopfield 之 类 的 递归 网 络 最 初 是 从 统计 力学 的 研究 发 展 而 来 的 。 它 们 主要 用 于 联想 
存储 中 ， 其 存储 的 数据 能 由 相关 的 输入 数据 回忆 出 来 ， 而 无 需 用 一 个 地 址 对 其 访问 。 另 外 ， 
这 些 网 络 也 可 用 于 解决 许多 优化 问题 。 第 17 章 和 第 18 章 将 对 这 些 递归 网 络 进行 深入 讨论 。 

希望 本 章 已 经 激 起 读者 对 神经 网 络 能 力 的 好 奇 心 ， 并 提出 了 一 些 问题 。 后 面 各 章 将 要 回 
答 的 一 些 问题 是 : 

1) 当 输 入 较 多 而 判定 边界 无 法 用 图 示 方法 表示 的 情况 下 ， 如 何 设 计 多 输入 感知 机 网 络 

的 权 值 和 偏 置 值 ? (第 4 章 和 第 10 章 ) 
2) 如 果 要 识别 的 类 别 不 是 线性 可 分 的 ， 能 否 通过 扩展 标准 感知 机 来 解决 这 类 问题 ? (第 
11 章 和 第 12 章 ) 

3) 当 并 不 知道 标准 模式 时 ，Hamming 网 如 何 学 习 权 值 和 偏 置 值 ”( 第 14 章 到 第 16 章 ) 

4) 如 何 确定 Hopfield 网 络 的 权 值 矩阵 和 偏 置 值 向 量 ? (第 18 章 ) 

5) 如 何 知道 Hopfield 网 络 最 终 是 否 会 收敛 ?” (第 17 章 和 第 18 3€) 


习题 
E3.1 本 章 设计 了 三 个 不 同 的 神经 网 络 ， 根 据 传感器 的 三 个 测量 值 ( 外 形 、 质 地 和 权 值 ) 
来 区 分 橘子 和 苹果 。 现 假设 要 区 分 香 葵 和 菠萝 ， 
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-1 (ES) 
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Ci) 试 设计 一 个 感知 机 来 识别 这 两 种 模式 。 

(fi) 试 设计 一 个 Hamming 网 络 来 识别 这 两 种 模式 。 

(iii) 试 设计 一 个 Hopfield 网 络 来 识别 这 两 种 模式 。 

Civ) 请 用 几 个 不 同 的 输入 模式 来 测试 你 所 设计 的 网 络 的 操作 。 并 请 讨论 每 种 网 
络 的 优点 和 缺点 。 





P = 














第 4 章 感知 机 学 习 规 则 


4.1 目的 

第 3 章 曾 提出 了 一 个 问题 :“ 当 多 输入 神经 元 网 络 的 判定 边界 无 法 月 图 形 方式 表示 的 情 
况 下 ,如 何 确定 权 值 矩 阵 和 偏 置 值 ? ”本 章 将 介绍 一 种 用 于 训练 感知 机 网 络 的 算法 ， 使 感知 
机 能 够 学 习 求解 分 类 问题 。 为 此 ， 这 里 将 从 介绍 什么 是 学 习 规 则 开始 ， 然 后 讨论 如 何 设计 感 
知 机 网 络 的 学 习 规 则 。 本 章 最 后 将 对 单 层 感知 机 网 络 的 优点 和 局 限 性 进行 讨论 。 这 些 讨论 将 


， 为 以 后 各 章 英 定 基础 。 


4.2 理论 和 实例 


1943 4E, Warren McCulloch 和 Walter Pitts 最 早 提出 了 一 种 人 工 神 经 元 模型 [ MePi43 j 。 
该 模型 的 主要 特点 是 把 神经 元 输入 信号 的 加 权 和 与 其 阔 值 相 比较 以 确定 神经 元 的 输出 。 如 果 
加 权 和 小 于 阐 值 ， 则 该 神经 元 的 输出 值 为 零 ， 如 果 加 权 和 大 于 阐 值 ， 则 该 神经 元 的 输出 值 为 
1. Warren McCulloch 和 Walter Pitts 进一步 证 明了 这 些 神经 元 网 络 原则 上 可 以 完成 任何 数学 
和 逻辑 函数 的 计算 。 与 生物 神经 网 络 不 同 的 是 ， 由 于 没有 找到 训练 这 些 网络 的 方法 ， 所 以 必 
须 设 计 出 这 些 神经 元 网 络 的 参数 以 实现 特定 的 功能 。 但 是 ， 由 于 该 模型 使 人 们 看 到 了 生物 学 
与 数字 计算 机 之 间 的 某 些 联系 ， 从 而 引起 了 人 们 的 极 大 兴趣 。 

20 世纪 50 FARR, Frank Rosenblatt 和 其 他 几 位 研究 人 员 提 出 了 一 种 称 为 感知 机 的 神经 
网 络 。 这 些 网 络 中 的 神经 元 与 McCulloch 和 Pitts 提出 的 神经 元 模型 十 分 相似 。Rosenblatt 的 
主要 贡献 在 于 引 人 了 用 于 训练 神经 网 络 解决 模式 识别 问题 的 学 习 规则 [ Rose58]。 他 证 明了 只 
要 求解 问题 的 权 值 存在 ， 那 么 其 学 习 规 则 通常 会 收敛 到 正确 的 网 络 权 值 上 。 整 个 学 习 过 程 较 
为 简单 ， 而 且 是 自动 的 。 只 要 把 反映 网 络 行为 的 实例 提交 给 网 络 ， 网 络 就 能 够 根据 实例 从 随 
机 初始 化 的 权 值 和 偏 置 值 开始 自动 地 进行 学 习 。 

然而 ， 感 知 机 网 络 本 身 却 具有 其 内 在 的 局 限 性 。 在 Marvin Minsky 和 Seymour Papert 所 
著 的 《感知 机 》( Perceptrons )[ MiPa69] 一 书 中 ， 对 这 些 局 限 性 进行 了 全 面 深 入 的 分 析 ， 指 出 
感知 机 网 络 不 能 实现 某 些 基本 的 功能 (如 异 或 等 )。 该 书 的 结论 曾 一 度 导 致 神经 网 络 研究 陷 信 
低潮 。 直 到 80 年 代 ， 改 进 的 (多 层 ) 感 知 机 网 络 和 相应 学 习 规则 的 提出 才 为 克服 这 些 局 限 性 
开辟 了 新 的 途径 ， 并 重新 唤起 人 们 对 神经 网 络 研究 的 兴趣 。 本 书 将 在 第 11 章 和 第 12 章 中 讨 
论 多 层 感 知 机 及 其 学 习 规则 。 

当前 ， 人 们 仍然 认为 感知 机 网 络 是 一 种 重要 的 神经 网 络 。 对 于 某 些 应 用 问题 而 言 ， 这 种 
神经 网 络 仍 不 失 为 一 种 快速 可 靠 的 求解 方法 。 另 外 ， 对 感知 机 网 络 行为 的 理解 将 会 为 理解 更 
加 复杂 的 神经 网 络 莫 定 良好 基础 。 因 此 ， 这 里 讨论 感知 机 网 络 及 其 联想 学 习 规则 是 十 分 必要 
的 。 ` 

下 面 首先 将 对 学 习 规 则 的 概念 给 出 明确 定义 ， 然 后 解释 感知 机 网 络 及 其 学 习 规则 ， 并 讨 
论 感知 机 网 络 的 局 限 性 。 
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4.2.1 学 习 规则 


学 习 规则 在 开始 讨论 感知 机 的 学 习 规 则 之 前 ， 首 先 来 讨论 一 般 的 学 习 规 则 。 所 谓 学 习 
规则 就 是 修改 神经 网 络 的 权 值 和 偏 置 值 的 方法 和 过 程 (也 称 这 种 过 程 是 训练 算法 )。 学 习 规 则 [4-2 
的 目的 是 为 了 训练 网 络 来 完成 某 些 工作 。 现 在 有 很 多 类 型 的 神经 网 络 学 习 规 则 。 大 致 可 以 将 
其 分 为 三 大 类 : 有 监督 学 习 、 无 监督 学 习 和 增强 (或 分 级 ) 学 习 。 

有 监督 的 学 习 ”训练 集 目标 在 有 监督 学 习 当 中 ， 学 习 规则 由 一 组 描述 网 络 行为 的 实 
PIA (MARIAH: 

Ipistil python d pto! (4.1) 
其 中 ，p, 为 网 络 的 输入 ，t 为 相应 的 正确 (目标 ) 输 出 。 当 输入 作用 到 网 络 时 ， 网 络 的 实际 
输出 与 目标 相 比较 ， 然 后 学 习 规则 调整 网 络 的 权 值 和 储 置 值 ， 从 而 使 网 络 的 实际 输出 越 来 越 
接近 于 目标 输出 。 感 知 机 的 学 习 规则 就 属于 这 一 类 有 监督 学 习 。 本 书 还 将 在 第 7 章 到 第 12 
章 继续 研究 有 监督 学 习 算 法 。 

增强 学 习 ”增强 学 习 与 有 监督 的 学 习 类 似 ， 只 是 它 并 不 像 有 监督 的 学 习 一 样 为 每 一 个 输 
人 提供 相应 的 目标 输出 ， 而 是 仅仅 给 出 一 个 级 别 。 这 个 级 别 ( 或 评分 ) 是 对 网 络 在 某 些 输入 序 
列 上 的 性 能 测度 。 当 前 这 种 类 型 的 学 习 要 比 有 监督 的 学 习 少 见 。 看 起 来 它 最 为 适合 控制 系统 
应 用 领域 (请 见 [BaSu83]，[ WhSo92])。 

无 监督 的 学 习 ”在 无 监督 的 学 习 中 ， 仅 仅 根据 网 络 的 输入 调整 网 络 的 权 值 和 偏 置 值 ， 它 
没有 目标 输出 。 竺 一 看 这 种 学 习 似乎 并 不 可 行 : 不 知道 网 络 的 目的 是 什么 ， 还 能 够 训练 网 络 
吗 ? 实际 上 ， 大 多 数 这 种 类 型 的 算法 都 是 要 完成 某 种 聚 类 操作 ， 学 会 将 输入 模式 分 为 有 限 的 
几 种 类 型 。 这 种 功能 特别 适合 于 诸如 向 量 量 化 等 应 用 问题 。 本 书 将 在 第 13 章 到 第 16 章 讨 论 
更 多 的 无 监督 学 习 算 法 。 


4.2.2 感知 机 的 结构 


在 介绍 感知 机 的 学 习 规则 之 前 ， 首 先 对 在 第 3 章 中 介绍 的 感知 机 网 络 进一步 进行 研究 。 
感知 机 网 络 的 一 般 结构 如 图 4-1 所 示 。 
输入 硬 极限 层 





a=hardlim(Wp+b) 
图 4-1 感知 机 网 络 


该 网 络 的 输出 由 下 式 给 出 : 
a = hardlim (Wp + b) (4.2) 
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(请 注意 : 第 3 章 使 用 的 是 hardlims 传输 函数 ， 而 不 是 hardlim 传输 函数 ， 不 过 这 并 不 
_43 ”影响 该 网 络 的 能 力 。 请 参见 习题 E4.6。 

式 (4.2) 在 开发 感知 机 的 学 习 规 则 中 十 分 有 用 ， 利 用 该 公式 可 以 方便 地 引用 感知 机 网 络 
输出 中 的 单个 元 素 。 为 此 ， 首 先 考 虑 如 下 权 值 矩阵 ; 


Wi Wi. "UO Wig 
Wo, W2 ''' War 

W= : ， : (4.3) 
Wsi Ws. "" WSR 


我 们 将 构成 W 的 第 i 个 行 向 量 定义 为 ; 


Wil 
Wi, 

Wal or (4.4) 
Wig 

felt, ARE W SUE: 

iw? 
2 Ww’ 

W=| . (4.5) 
sw 

_44 ”这 样 就 可 以 将 网 络 输出 向 量 的 第 了 个 元 素 写成 a = hardlim(n) 


a; = hardlim(n;) = hardlim(; w'p + bj) (4.6) 

由 于 hardlim 传输 函数 (如 图 4-2) 的 定义 是 : 
th 0m - 
所 以 ， 如 果 权 值 矩阵 的 第 i 个 行 向 量 与 输入 向 量 的 内 积 大 于 等 于 的 
- 5b， 该 输出 为 1， 否 则 输出 为 0。 因 此 网 络 中 的 每 个 神经 元 将 输 图 42 hardlim 传输 函数 
入 空间 划分 成 两 个 区 域 。 研 究 这 些 区 域 之 间 的 边界 是 非常 有 用 的 。 
下 面 将 从 有 两 个 输入 的 单 神经 元 感知 机 开始 ， 对 此 进行 讨论 。 

1. 单 神经 元 感知 机 

考虑 如 图 4-3 所 示 的 两 个 输入 的 单 神经 元 感知 机 。 该 网 络 的 输出 由 下 式 所 决定 ， 

a= hardlim(n) = hardlim (Wp + 5) 


a= hardlim(n) = { 


= hardlim(,w'p+ b) = hardlim( w4 1p; + W1,2p, + D) (4.8) 
判定 边界 ”判定 边界 由 那些 使 得 净 输 入 n 为 零 的 输 人 向 量 确定 ， 
n = iw p+ = Wi py + Wiop, + b = 0 (4.9) 
_45 | 为 了 使 该 实例 更 加 具体 ， 现 将 权 值 和 偏 置 值 设置 为 : 
wi =1,w,,=1,b =-1 (4.10) 


那么 判定 边界 是 
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输入 两 输入 神经 元 
! Wi, 

Li 
pi wi |b 


S 7 


a = hardlim(Wp b) 


图 43 两 输 人 / 单 输出 神经 元 感知 机 


n = 1W7p+ = Wip; + Wip +b = pl+p-1l=0 (4.11) 

式 (4.11) 在 输入 空间 中 定义 了 一 条 直线 。 该 直线 一 侧 的 输入 向 量 相应 的 网 络 输出 为 0; 

而 直线 上 和 另 一 侧 的 输入 向 量 相应 的 网 络 输出 则 为 1。 为 了 画 出 这 条 直线 ， 必 须 找到 该 直线 
穿 过 轴 p 和 p, 的 点 。 为 了 求 该 直线 在 轴 p, LORE, $ p =0: 


Penge el (3 p, = 0 时 ) (4.12) 
为 了 求 该 直线 在 轴 p, LKB, $ p, = 0; 
p, -JT E! (3 p, = 0 时 ) (4.13) 





图 4-4 双 和 输入 感知 机 的 判定 边界 


为 了 确定 边界 的 哪 一 边 对 应 的 输出 为 1， 我 们 只 需 检 测 输 和 人 空间 的 一 个 点 。 对 于 输入 p 
=[2 0]7， 网 络 的 输出 为 


2 
a = hardlim (iw! p + b) = hardtim( [1 u[?] - 7 = 1 (4.14) 


所 以 ， 对 于 判定 边界 右上 方 的 区 域 网 络 输 出 为 1。 在 图 4-4 中 用 阴影 表示 该 区 域 。 
另外 ， 也 可 用 图 解 的 方法 找到 该 网 络 相应 的 判定 边界 。 首 先 必 须 注意 的 是 该 边界 与 jw 
垂直 (如 图 4-5 fra): 


图 4-5 中 的 判定 边界 由 下 式 定义 ; 
1w7p +b=0 (4.15) 
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图 4-5 


对 判定 边界 上 的 所 有 点 而 言 ， 输 入 向量 与 权 值 向 量 的 内 积 都 是 一 样 的 。 这 意味 着 所 有 这 
些 输入 向 量 在 权 值 向 量 上 都 有 相同 的 投影 ， 所 以 它们 必须 位 于 与 权 值 向 量 正 交 的 一 条 直线 上 
(第 5 章 将 详细 讨论 这 一 概念 )。 另 外 ， 图 4-4 阴影 区 域 中 的 任意 输入 向 量 都 有 大 于 - > 的 内 
积 ， 而 无 阴影 区 域 中 的 输入 向 量 则 有 小 于 - ”的 内 积 。 因 此 ， 权 值 向 晤 !w 将 总 是 指向 神经 


元 输出 为 1 的 区 域 。 

一 且 选 择 好 具有 正确 角度 指向 的 权 值 向 量 ， 就 可 以 选择 判定 边界 上 满足 式 (4.15) 的 点 
来 计算 偏 置 值 。 

下 面 将 运用 上 述 一 些 概 念 设计 出 能 够 实现 “与 门 "逻辑 功能 的 感知 机 网 络 。 与 门 的 输入 / 
目标 对 为 ; 


{m= [5] = ofle = [i] fim o] -ole ideni] 


该 问题 可 以 用 图 4-6 的 方式 进行 描述 。 该 图 依据 输入 向 量 的 目标 值 显示 输入 空间 。 目 标 
值 为 1 的 输入 向 量 用 黑色 图 图 @ 表 示 ， 而 目标 值 为 0 的 输入 向 量 用 空心 圆圈 表示 。 

设计 的 第 一 步 是 选择 一 个 判定 边界 。 我 们 希望 有 一 条 直线 将 黑色 圆圈 和 空心 圆圈 分 隔 在 
两 个 区 域 。 能 够 实现 这 种 划分 的 线 有 无 穷 条 。 不 过 似乎 较为 合理 的 选择 是 直线 刚好 处 于 这 两 


类 输入 的 正中 (如 图 4-7 所 示 )。 
iW 
AND A 
e 
图 4-6 图 47 


下 面 将 选择 一 个 与 判定 边界 垂直 的 权 值 向 量 。 由 于 该 权 值 向 量 可 以 是 任意 长 度 的 向 量 ， 
它 同 样 有 无 数 可 能 的 选择 。 这 里 选择 


w= [>| | (4.16) 


(如 图 4-7 所 示 )。 
最 后 ， 为 了 求解 偏 置 值 5?， 可 以 从 判定 边界 上 选取 一 个 满足 式 (4.15) 的 点 。 如 果 选 择 p 


=[1.5 0]”, 代 人 式 (4.15)， 有 : 
+b234+6=0 = b=-3 (4.17) 





1.5 
iw’ p + b = [2 al 0 
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现在 可 以 通过 选择 上 述 的 输入 /目标 对 来 对 网 络 进行 测试 。 如 果 选 择 p, 作为 网 络 的 输 
入 ， 则 输出 为 


- 0 
= hardli w? b) = hardli (2 2 | | -3] 
a ardlim(1w p, + b) ardlim ] | (4.18) 


= hardlim(- 1) = 0 
可 以 看 出 ， 网 络 的 实际 输出 等 于 目标 输出 ;,。 请 读者 自行 验证 ， 该 网 络 对 所 有 的 输入 都 能 
够 进行 正确 的 分 类 。 
EA 验证 判定 边界 问题 可 使 用 Neural Network Design Demonstration Decision Bound- 
277^. aries(nnd4db), 





2. 多 神经 元 感知 机 
对 于 如 图 4-1 所 示 的 多 神经 元 感知 机 而 言 ， 得 个 神经 元 都 有 一 个 判定 边界 。 第 i 个 神经 
元 的 判定 边界 定义 为 
iw'p + b = 0 (4.19) 
由 于 单 神经 元 感知 机 的 输出 只 能 为 0 或 1， 所 以 它 可 以 将 输入 向 量 分 为 两 类 。 而 多 神经 元 
感知 机 则 可 以 将 输入 分 为 许多 类 ， 每 一 类 都 由 不 同 的 输出 向 量 来 表示 。 由 于 输出 向 量 的 每 个 元 
素 可 以 取 值 0 或 1， 所 以 共有 2 种 可 能 的 类 别 ， 其 中 $ 是 多 神经 元 感知 机 中 神经 元 的 数目 。 


4.2.3 感知 机 学 习 规 则 


至 此 我 们 已 经 考察 了 感知 机 网 络 的 性 能 ， 从 现在 开始 将 讨论 感知 机 的 学 习 规则 。 由 于 其 
学 习 规则 是 有 监督 训练 的 一 个 实例 ， 所 以 这 里 学 习 规则 将 提供 一 组 能 够 正确 反映 网 络 行为 的 
d [p tili {ps tl ssi posto! (4.20) 
其 中 p, 是 网 络 的 输入 ，t, 是 该 输入 相应 的 目标 输出 。 当 每 个 输入 作用 到 网 络 上 时 ， 网 络 的 
实际 输出 与 目标 相 比较 。 然 后 学 习 规 则 调整 该 网 络 的 权 值 和 偏 置 值 ， 使 得 网 络 的 实际 输出 进 
一 步 靠 近 目 标 输出 。 

1. 测试 问题 

在 讨论 感知 机 学 习 规则 中 ， 首 先 将 给 出 一 个 简单 的 测试 实例 ， 并 对 一 些 可 能 的 学 习 规则 
进行 测试 ， 以 使 读者 初步 了 解 这 些 学 习 规 则 的 工作 机 理 。 在 该 测试 问题 中 ,输入 /目标 对 为 : 


b dde eH L9] 


此 问题 可 以 用 图 4-8 说 明 ， 图 中 目标 输出 为 0 的 两 个 输入 向 
量 用 空心 圆圈 〇 表示 ， 目 标 输出 为 1 的 输入 向 量 用 黑色 圆 图 @ 表 | 
示 。 从 图 中 可 以 看 出 该 问题 实际 上 是 一 个 非常 简单 的 问题 ， 通 
过 一 定 的 观察 就 可 以 得 到 问题 的 解 。 但 是 这 种 简单 性 能 够 帮助 
读者 对 感知 机 学 习 规则 的 基本 概念 有 一 个 直观 的 理解 。 

此 问题 相应 的 网 络 应 该 有 两 个 输入 和 一 个 输出 。 为 了 简化 ) 
其 学 习 规则 的 开发 ,这 里 首先 采用 一 种 没有 偏 置 值 的 网 络 。 于 
是 网 络 只 需 调整 两 个 参数 w ;和 w, ;( 如 图 4-9 所 示 )。 图 4.8 


[437] 
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输入 无 偏 置 值 神经 元 


Pi Wi 
X ILE ET 
P2 Wiz 
VY 
a = hardlim(Wp) 


图 4-9 测试 问题 的 网 络 


由 于 在 网 络 中 去 掉 了 偏 置 值 ， 所 以 网 络 的 判定 边界 必定 穿 过 坐标 轴 的 原点 (如 图 4-10 所 
示 )。 为 了 保证 简化 后 的 网 络 仍然 能 够 解决 上 面 所 给 出 的 测试 问题 ， 这 里 必须 找到 一 条 判定 
边界 将 向 量 p, 同 p,，p, 分 开 。 从 图 中 可 以 看 出 实际 上 有 无 数 条 可 供 选择 的 判定 边界 。 

图 4-11 给 出 了 这 些 判定 边界 相应 的 权 值 向 量 ( 记 住 权 值 向 量 与 判定 边界 垂直 )。 我 们 希 
望 学 习 规则 能 够 找到 指向 这 些 方向 中 的 一 个 权 值 向 量 。 请 注意 ; 权 值 向 量 的 长 度 无 关 紧 要 ， 
重要 的 是 它 的 方向 。 





图 4-10 图 4-11 


2. 学 习 规 则 的 构造 
在 训练 开始 时 ， 为 网 络 的 参数 赋 一 些 初始 值 。 由 于 这 里 要 训练 的 是 一 个 两 输入 / 单 输出 
的 无 偏 置 值 网 络 ， 所 以 仅 需 对 其 两 个 权 值 的 进行 初始 化 。 这 里 将 1w 的 两 个 元 素 设 置 为 如 下 
两 个 随机 生成 的 数 : 
iw’ = [1.0 -0.8] (4.21) 


现在 将 输入 向 量 提供 给 网 络 。 开 始 用 p BA; 
a= hardlim(,w'p, ) = hardtim| {1.0 -0.81[ |] (4.22) 


= hardlim(-0.6) = 0 

网 络 没有 返回 正确 的 值 。 该 网 络 当前 的 实际 输出 为 0， 而 相应 的 目标 值 1 却 为 1。 

参考 图 4-12 可 以 看 出 判决 边界 初始 的 权 值 向 量 导致 了 对 向 量 p, 错误 分 类 的 判决 边界 。 
我 们 需要 调整 权 值 向 量 ， 使 它 更 多 地 指向 pl ， 以 便 在 后 面 更 有 可 能 得 到 正确 的 分 类 结果 。 

一 种 调整 方法 是 令 ;w 等 于 p,。 这 种 简单 的 处 理 方法 的 确 能 够 保证 问题 可 以 得 到 正确 的 
分 类 结果 。 然 而 非常 容易 构造 出 一 个 并 不 能 通过 这 种 简单 处 理 方法 求解 的 问题 。 图 4-13 就 
给 出 了 这 样 一 个 实例 ， 在 图 中 ， 如 果 令 权 值 向 量 直 接 指 向 两 个 输出 值 为 1 的 输入 向 量 中 的 一 
个 ,那么 权 值 向 量 并 不 是 问题 的 正确 解 。 如 果 每 次 都 令 iw= p， 那 么 这 两 个 输入 向 量 中 必 有 
一 个 被 错误 划分 ， 于 是 网 络 权 值 的 求解 过 程 将 前 后 振荡 ， 水 远 得 不 到 正确 的 解 。 
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图 4-12 图 4-13 


另 一 种 调整 方法 是 将 p, 加 到 iw 上 。 这 样 会 使 w 的 指向 更 加 偏向 p,。 重 复 这 一 操作 ,将 
(Ew 的 指向 逐步 达到 p, 的 方向 。 这 一 规则 可 以 表述 为 ; 


mR: = 1, 且 a = 0, Whw" =w +p (4.23) 
在 上 述 问题 中 应 用 这 个 规则 ， 将 会 得 到 新 的 !w [B 20 || 
u 1.0 1 2.0 NE 
wee aw :| | -| (4.24) 


此 操作 如 图 4-14 所 示 。 
现在 考虑 另 一 个 输入 向 量 ， 并 继续 对 权 值 进行 调整 。 不 断 重复 Ej 4-14 
这 一 过 程 ， 直 到 所 有 输入 向 量 被 正确 分 类 。 
设 下 一 个 输入 向 量 是 pn,。 当 它 被 送信 该 网 络 后 ， 有 


4-10 





a= hardlinGw py) = haratim( (2.0 1.2][ 7," |] (4.25) 


= hardlim(0,4) = 1 
p, 的 目标 值 to 等 于 0， 而 该 网 络 的 实际 输出 a 是 1。 所 以 一 个 属于 类 0 的 向 量 被 错误 划 
分 为 类 1 了 。 
既然 现在 的 目的 是 将 ;w 从 输 和 人 向量 所 指 的 方向 移 开 ， 因 此 可 以 
将 式 (4.23) 中 的 加 法 变 为 减法 
WE t = 0, 且 ae = 1, 则 iw** = jw -p (4.26) 
如 果 在 测试 问题 中 应 用 该 规则 ， 可 求 出 


2.0 -1 S] 
new z ld — 二 — LI 4 . 27 
iw IU = Pa [29] [7 -os] (4:2? 





结果 如 图 4-15 所 示 。 
现在 将 第 三 个 输入 向 量 p 送 入 该 网 络 : 


. 0 
a= hardlim (,w"p,) = hardlim | (3.0 - 0.8] | 24 | (4.28) 
= hardlim(0.8) = 1 
可 以 看 出 ， 这 里 ;w 所 形成 的 判定 边界 也 错误 划分 了 pj。 在 这 种 情况 下 ， 前 面 已 经 有 了 
相应 的 处 理 规则 。 所 以 ， 按 照 式 (4.26) 对 1w 进行 修正 ， 


3.0 | | | [25] 
"EIN - - 4.29) [uii] 
NN cam Ps ^os -1] ^ 10.2 (4.29) 
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如 图 4-16 表明 该 感知 机 最 终 可 以 对 上 述 三 个 输入 向 量 进行 正确 
的 分 类 。 如 果 将 上 述 任意 输入 向 量 送 入 神经 元 ， 感 知 机 将 输出 输入 
向 量 的 正确 分 类 。 

据 此 ， 可 以 得 到 第 三 条 也 是 最 后 一 条 规则 : 如 果 感 知 机 能 够 正 
确 工 作 ， 则 不 用 改变 权 值 向 量 : 

WR t = a Wwe’ = w” (4.30) 

下 面 是 涵盖 了 实际 输出 值 和 目标 输出 值 所 有 可 能 组 合 的 三 条 规 

则 ; 








mR: = 1, 且 e = 0, Mw” =w +p 
如 果 = 0, 且 ac = 1, 则 Iw** = w^? -p (4.31) 
WR t = a, Aw’ = w” 
3. 统一 的 学 习 规 则 
式 (4,31) 中 的 三 条 规则 可 以 统一 表示 为 一 个 表达 式 。 首 先 将 感知 机 的 误差 定义 为 一 个 新 
的 变量 e: 
e2t-a (4.32) 
现在 可 将 式 (4.31) 中 的 三 条 规则 重 写 为 : 
WR e = 1, Ww” =w +p 
如 果 e =- 1,Jl];w*" =w -p (4.33) 
如 果 e = 0,JJ,w" = w 
仔细 观察 式 (4.33) 中 的 前 两 条 规则 ， 不 难 发 现 p 的 符号 和 误差 e 的 符号 一 致 。 另 外 ， 在 第 
三 条 规则 中 ， 由 于 e=0， 所 以 了 没 有 出 现 。 所 以 可 以 将 上 述 三 条 规则 统一 成 一 个 表达 式 : 
iw = wt + ep = wa (t a)p (4.34) 
此 规则 可 扩展 到 偏 置 值 的 训练 过 程 中 ， 可 以 将 偏 置 值 看 作 是 一 个 输入 总 是 为 1 的 权 值 即 可 。 
于 是 可 以 将 式 (4.34) 中 的 p 用 偏 置 值 的 输入 1 蔡 换 ， 得 到 感知 机 的 偏 置 值 学 习 规 则 ; 
p gd. (4.35) 
4. 多 神经 元 感知 机 的 训练 
由 式 (4.34) 和 式 (4.35) 给 出 的 感知 机 规则 ， 修 改 单 神经 元 感知 机 的 权 值 向 量 。 我 们 能 把 
这 个 规则 按照 如 下 方法 推广 到 如 图 4-1 所 示 的 多 神经 元 感知 机 。 权 值 拢 阵 的 第 i 行 用 下 式 进 
ITER: 


we = wt + eip (4.36) 
而 偏 置 向 量 的 第 i 个 元 素 则 按 下 式 进行 修改 : 
pee = pH y. e, (4.37) 
感知 机 规则 “感知 机 的 学 习 规 则 可 以 方便 地 用 矩阵 符号 表示 为 : 
wee = wie + ep? (4.38) 
和 
b” = b.e (4.39) 


为 了 验证 感知 机 的 学 习 规则 ， 再 次 考虑 第 3 章 中 的 苹果 /橘子 识别 问题 。 其 输 人 /输出 原 
型 向 量 为 ; 
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1 1 

TE = to a- 1 

-1 -1 

(EB: 这 里 橘子 模式 p, 的 目标 输出 用 0 表示 ， 而 不 是 用 第 3 章 中 所 用 的 - 1 表示 。 这 是 
因为 本 章 使 用 的 是 hardlim 传输 函数 ， 而 不 是 hardlims 传输 函数 。) 

通常 ， 将 权 值 和 偏 置 值 初始 化 为 较 小 的 随机 数 。 假 设 这 里 的 初始 权 值 矩阵 和 偏 置 值 分 别 


sta = 2 (4.40) 











为 : 
W=[0.5 -1 -0.5], b 20.5 (4.41) 


第 一 步 将 第 一 个 输入 向 量 p, 送 入 网 络 : 
1 
a= hardlim(Wp, + b) = wat -] - os- ] 十 Z (4.42) E5 


= hardlim(2.5) = 1 
然后 计算 误差 
(4.43) 


e=t,;-a=0-1=2=1 


权 值 更 新 为 
new _ old _ 
w= WwW! ep’ = (0.5 -1 -0.5]«(-D(1 -1 -1] (4.44) 
2[-0.5 0 0.5] 
偏 置 值 更 新 为 
be” = b .6.20.54(-1) =-0.5 (4.45) 


至 此 完成 了 第 一 次 选 代 。 
该 感知 机 学 习 规则 的 第 二 次 和 迭代 为 ， 


1 
_ ， - m [-0. . - 0. 
a= hardlim(Wp, + b) = hardlim| [- 0.5 0 0 s| | + ( " (4.46) 


= hardlim(- 0.5) = 0 


e=tz-a=1-02=1 (4,47) 
wer = Wo + ep? 
2[-0.5 0 0.5]+(1)f1 1 -1] (4.48) 
= [0.5 1 -0.5] 
pe = Wy yp ep =-0.5412=0.5 (4.49) 


第 三 次 迭代 重新 从 第 一 个 输入 向 量 开始 : 


1 
- j = | . 7 ve -1 0. 
a= hardlim (Wp, + b) tin 5 1 0 中 | | + ] (4.50) 


= hardlim(0.5) = 1 
€ = tij-az0-1--1 
Ww. W.ep"-[0.5 1 -0.5]«(-D[1 -1 -1 
(4.52) [414] 
2[-0.5 2 0.5] 


(4.51) 
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bee = b+e=0.S+(-1) =-0.5 (4.53) 
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上 。 请 注意 : 最 后 得 到 的 判定 边界 和 第 3 章 中 所 得 到 的 判定 边界 并 不 一 样 ， 虽 然 两 个 判定 边 
界 都 可 以 正确 区 分 这 两 个 输入 向 量 。 


验证 感知 机 学 习 规 则 可 使 用 Neural Network Design Demonstration Perceptron 
Hule( nnddpr) . 





4.2.4 收敛 性 证 明 


虽然 感知 机 的 学 习 规 则 非常 简单 ， 但 它 十 分 有 效 。 实 际 上 可 以 证 明 : 只 要 权 值 的 解 存 
在 ， 该 规则 总 能 收敛 到 实现 期 望 分 类 的 权 值 上 。 本 节 将 给 出 如 图 4-17 所 示 的 单 神经 元 感知 





机 的 学 习 规 则 的 收敛 性 证 明 。 
输入 硬 极 限 神 经 元 
a =hardiim(,wp+b) 
图 4-17 单 神经 元 感知 机 
这 个 感知 机 的 输出 可 由 下 式 得 到 ， 
Q = hardlim (1w’p 4 b) (4.54) 

网 络 提供 了 正确 反映 网 络 行为 的 下 述 实例 : 

[pi til {pst2},"*, {po, tol (4.55) 


其 中 每 个 目标 输 n 取 值 0 或 1。 
]. 记号 
为 了 便于 描述 证 明 过 程 ， 首 先 引信 几 个 新 的 记号 。 这 里 将 权 值 矩阵 和 偏 置 值 组 合 为 一 个 


[415] 向量 





x= | | (4.56) 
b 
同样 ， 在 输入 向 量 中 也 增加 一 个 参数 1， 以 表示 偏 置 输入 : 
z, = "| (4.57) 
1 


现在 可 将 神经 元 的 净 输 入 表示 为 : 
n = wp+b=x'z (4.58) 


那么 ， 感 知 机 的 学 习 规 则 ( 式 (4.34) 和 式 (4.35)) 可 以 写成 
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x"" = x + ez (4.59) 

误差 。 可 以 取 1，- 1 或 0。 如 果 e=0， 那么 权 值 不 变 ; WE e= 1， 则 将 输入 向 量 和 权 

值 向 量 相 加 ; 如 果 e= - 1， 那么 权 值 向 量 减 去 输入 向 量 。 如 果 只 考虑 权 值 启 量 发 生 改 变 的 
哪些 迭代 ， 则 该 学 习 规 则 变 为 


x(k) = x(k - 1) e z'(k - 1) (4.60) 
RF 2! (k- 1M FRA PHT : 
[27;,2),77,29, — Zi — 25,7, — Zol (4.61) 


现 假设 存在 对 所 有 Q 个 输入 向 量 进行 正确 分 类 的 权 值 向 量 ， 并 将 这 一 解 记 为 x" 。 对 该 
权 值 向 量 ， 假 设 
TA: = 1,952 x'72,»2850 (4.62) 
以 及 
如 果 ， = 0, 那 么 x*7z <-3 <0 (4.63) 
2. 证 明 
下 面 开始 证 明 感 知 机 收敛 定理 。 为 此 必须 找 出 算法 每 一 阶段 权 值 向 量 长 度 的 上 界 和 下 


BK. 
假设 算法 的 初始 权 值 向 量 为 0， 也 即 x (0) = 0( 这 并 不 影响 到 参数 的 普遍 性 )。 那 么 ， 选 
代 上 次 (次 改变 权 值 向 量 ) 后 ， 由 式 (4.60) 得 到 


x(k) 2z'(0 «z'(1) «c -z'(k- 1) (4.64) 
ER k 次 后 的 权 值 向 量 和 最 终 的 权 值 向 量 解 x* 之 间 的 内 积 ， 可 得 
x'Tx(k) = x" "z'(0) + x* Jz'(1) ec ex" Iz'(k - 1) (4.65) 
由 式 (4.61) ~ (4.63) RT Al 
x'?^2'()0»6 (4.66) 
所 以 
x'Tx(k) > kd (4.67) 
E RIPS- 6 BL EAR SEK (HL [ Brog91] ) E108 | 
(x*?x(k))? < |x* l2 x(a) ll? (4.68) 
其 中 
lx I]? 2 x?x (4.69) 


如 果 将 式 (4.67) 和 式 (4.68) 相 结合 ， 则 可 以 得 到 和 迭代 & 次 后 权 值 向 量 长 度 平方 的 下 界 


LE 
x(k) l? = ac XU » PLU (4.70) 
"FiEDROUBC IR] ERE BA LA. ME ERA KER E ACT : 
ll x(k) 1? = x?(k)x(k) 
= [x(k -1) «z'(k -1)]"[x(k - 1) e z'(k - 1] (4.71) 
= x(k —1)x(k - 1) + 2x"(h - Dz'(k-1) «z'"(k - Dz'(k- 1) 
注意 
x’(k-1)z'(k-1) «0 (4.72) 
因为 权 值 向 量 只 有 在 前 一 输入 向 量 被 错误 分 类 时 才 会 进行 更 新 。 因 此 式 (4.71) 可 以 简化 为 


4-16 
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Ilx(k) H8? e lx(k- 0l? lz'(k- DI? (4.73) 
对 上 x(£-DI?, x( -2) 1 ?，… 重 复 上 述 过 程 ， 可 得 
| x(k) Il? < Hz’(O) |? e zk - 1) I? (4.74) 
T= maxt i z'() ii?， 该 上 界 可 简化 成 
| xC&) l|? < AD (4.75) 


至 此 , 已 求 出 了 上 次 迭代 时 权 值 向 量 长 度 平方 的 上 界 ( 式 (4.75)) 和 下 界 ( 式 (4.76))， 
将 其 合并 ， 求 得 


kD > xe) I? > sg e < Be (4.76) 
由 于 大 有 上 界 意味 着 权 值 的 改变 次 数 是 有 限 的 ， 所 以 感知 机 的 学 习 规 则 将 在 有 限 次 迭 


代 后 收敛 。 

和 迭代 的 最 大 次 数 ( 权 值 向 量 的 改变 次 数 ) 与 8 成 反比 关系 。 该 参数 是 输入 模式 与 判定 边 
界 的 解 靠近 程度 的 一 种 测度 。 这 意味 着 ， 如 果 输 入 向 量 越 靠近 判定 边界 ， 就 越 难 将 它们 分 
开 ， 就 要 迭代 更 多 次 才能 使 算法 收敛。 

请 注意 该 证 明 是 建立 在 下 面 三 条 关键 假设 基础 之 上 的 : 

1) 问题 的 解 存在 ， 也 即 满足 式 (4.66)。 

2) 仅 在 输入 向 量 被 错误 分 类 时 才 改 变 权 值 ， 也 即 满足 式 (4.72)。 

3) 输入 向 量 长 度 的 上 界 UGE. 

由 于 证 明 的 一 般 性 ， 所 以 感知 机 学 习 规 则 的 许多 变形 同样 也 可 以 证 明 是 收敛 的 (参考 习 
题 E4.9)。 

3. 局 限 性 

只 要 问题 的 解 存 在 ， 那 么 感知 机 学 习 规 则 就 一 定 能 够 在 有 限 步 数 内 收敛 到 问题 的 一 个 
解 。 这 不 禁 又 提出 了 一 个 新 的 重要 问题 ; 感知 机 能 够 求解 哪些 问题 ? 前 面 已 经 说 明 单 神经 元 
感知 机 可 将 输入 空间 分 为 两 个 区 域 ， 区 域 之 间 的 判定 边界 可 以 由 下 式 定义 ，; l 

iwp+b =0 (4.77) 

线性 可 分 性 ”这 是 一 个 线性 边界 ( 超 平面 )， 因 而 感知 机 可 以 对 那些 能 够 被 线性 边界 分 开 
的 输入 向 量 进行 分 类 。 这 样 的 向 量 称 为 是 线性 可 分 的 。 前 面 4.2.2 节 逻 辑 与 门 实例 就 是 一 个 
二 维 线性 可 分 的 问题 ， 第 3 章 中 的 橘子 / 伍 果 识别 问题 则 是 一 个 三 维 线性 可 分 的 实例 。 

然而 ， 许 多 问题 并 非 是 线性 可 分 的 。 典 型 的 实例 就 是 XOR 门 ，XOR 门 的 输入 /目标 对 


(o -fole = ofe = Je fo = lole he Gile 


此 问题 可 以 用 图 4-18 中 的 最 左边 的 图 来 表示 ， 该 图 同时 还 给 出 了 另外 两 个 线性 不 可 分 
问题 。 试 在 图 4-18 中 所 有 目标 为 0 的 向 量 和 所 有 目标 为 1 的 向 量 之 间 画 一 条 直线 。 

基本 的 感知 机 是 不 能 解决 这 样 简单 问题 的 。 在 某 种 程度 上 来 说 ， 这 种 情况 导致 了 20 世 
纪 70 年 代 人 们 对 神经 网 络 研究 兴趣 的 减退 。Rosenblatt 也 曾 研究 过 更 加 复杂 的 网 络 ， 他 觉得 
复杂 的 网 络 能 够 克服 基本 感知 机 的 局 限 性 ， 但 是 他 未 能 将 感知 机 学 习 规 则 有 效 地 扩展 到 这 样 
复杂 的 网 络 中。 第 11 章 将 介绍 能 够 求解 任意 分 类 问题 的 多 层 感 知 机 ， 以 及 能 用 于 训练 多 层 
感知 机 的 反 传 算法 。 


是 
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o e 
O 
一 
图 4-18 ”线性 不 可 分 问题 
4.3 小 结 
感知 机 的 结构 
输入 硬 极限 层 
iw? 
2w7 
a = hardlim(Wp + b) W=! , 
sw? 
a; = hardlim(n;) = hardlim(,;w’p + b;) 
判定 边界 


imw7p 十 b; = 0 
判定 边界 总 与 权 值 向 量 垂直 。 单 层 感 知 机 只 能 对 线性 可 分 的 向 量 进行 分 类 。 


感知 机 学 习 规 则 


we = wd + ep’ 
b*" = p? +e 
其 中 e=ft- ao 
4.4 例题 


P4.1 请 画 出 图 4-19 中 三 个 简单 分 类 问题 的 判定 边界 。 求 相应 于 判定 边界 的 权 值 和 偏 置 
值 。 


4-20 


-4-21 
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图 4-19 简单 的 分 类 问题 


解 
首先 在 黑色 数据 点 集 和 空心 数据 点 集 之 间 画 一 条 直线 将 它们 分 开 。 





下 一 步 求解 相应 的 权 值 和 偏 置 值 。 权 值 向 量 必 须 与 判定 边界 垂直 ， 并 指向 类 1( 黑 色 点 ) 
一 方 ， 而 权 值 向 量 的 长 度 则 可 任意 选择 。 





下 面 是 所 选择 的 一 组 权 值 向 量 ; 
(allw7=[-2 1], (bw =[0 -2], (Oiw = [2 -2] 
为 求解 每 个 感知 机 的 偏 置 值 。 可 以 选择 判定 边界 上 满足 式 (4.15) 的 点 : 
iwp+b =0 
b=- iwip 


据 此 可 得 如 下 三 个 偏 置 值 ; 
(a)b 2-[-2 gfe] =o, are - - to -23| | --2, 


(c)b =- [2 -a|7?] = 6 


$A KAMEN 49 








现在 可 以 利用 问题 所 给 出 的 数据 点 来 验证 这 些 解 。 下 面 用 输入 向 量 p:=:[ -2 2]7 来 验 
证 第 一 个 网 络 ; 
a= hardlim(,w"p +b) 


= haratim| L.- 2 up «o 


= hardlim(6) 
= 1 
读者 可 以 用 MATLAB 完成 对 新 数据 点 的 自动 验证 过 程 。 这 里 用 第 一 个 网 络 对 一 个 不 在 
原 问题 中 的 数据 点 进行 分 类 : 
w=[-2 1]; bz0; 
a = hardlim(w* [1;1] + b) 
a = 
0 
P4.2 将 下 面 所 定义 的 分 类 问题 转换 为 由 一 组 不 等 式 约束 的 权 值 和 偏 置 值 所 定义 的 一 个 
等 价 问题 。 


In [3 ttim [ole =e Ld ole = lobe t] 


解 
每 个 目标 n 表明 了 相应 于 p, 的 净 输 入 是 小 于 0 还 是 大 于 等 于 0。 比 如， 由 于 是 jÉ 1, [422 


则 相应 于 p, 的 净 输 入 一 定 大 于 等 于 0。 因 此 ， 可 以 得 到 下 列 不 等 式 ; 
Wp, + 520 
Ow, , +2wy,+ 530 


2w,,;*b 20 


XHBAJ/ BOE Ip, nih Ip Ep, tol DOERR, UEA FARY 


Å: 
2w,,+b20 (i) 
w,,+b 20 (ii) 
-2w,,+5 <0 (iii) 
2w,,+b <0 (iv) 


解 不 等 式 组 比 解 方程 组 要 难 ， 难 在 通常 情况 下 不 等 式 组 都 有 无 数 个 解 (就 像 是 线性 可 分 
的 分 类 问题 通常 有 无 数 个 线性 判定 边界 一 样 ) 。 
不 过 ， 由 于 此 问题 比较 简单 ， 所 以 可 以 通过 图 解 由 不 等 式 组 定义 的 解 空间 来 求解 。 请 注 
Bw, , 仅 出 现在 (ii) 和 (iv) 中 ， 而 ww; 仅 出 现在 () 和 ( 疝 ) 中 。 所 以 ， 两 组 不 等 式 可 用 如 下 两 
个 图 来 表示 : 
任何 落 于 暗 灰色 区 域 中 的 权 值 和 偏 置 值 都 可 作为 此 分 类 问题 的 解 。 其 中 一 个 解 为 : 
W=[-2 3], b=3 4-23 
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P4.3 考虑 具有 如 下 四 类 输入 向 量 的 分 类 问题 。 这 四 类 输入 向 量 分 别 是 


vibe [1 ms 


第 3 类 :ps = ws |] Sees S [i] 2 [71]] 


试 设计 一 种 感知 机 网 络 求解 此 问题 。 
解 
由 于 5 个 神经 元 的 感知 机 可 对 25 个 类 别 进 行 分 类 ， 所 以 求解 此 问题 至 少 需要 两 个 神经 
元 。 这 种 两 神经 元 的 感知 机 如 图 4-20 所 示 。 
输入 硬 极限 层 





a = hardlim (Wp +b) 
图 4-20 两 神经 元 的 感知 机 


我 们 从 显示 在 图 4-21 的 输入 向 量 开 始 。 图 中 用 空心 圆圈 O 表 示 第 1 类 输入 向 量 ， 用 空 
心 方 框 口 表示 第 2 类 输入 向 量 ， 用 黑色 圆圈 @ 表 示 第 3 类 输入 向 量 ， 用 黑色 方 框图 表示 第 4 
类 输入 向 量 。 





图 4-21 例题 P4.3 的 输入 向 量 
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两 神经 元 感知 机 可 以 生成 两 条 判定 边界 。 为 了 将 输入 空间 分 为 四 类 ， 必 须要 有 一 条 判定 
边界 将 四 类 输入 分 为 两 组 ， 每 组 分 别 包 含 两 类 输入 ， 而 另 一 条 判定 边界 必须 能 够 将 各 类 输入 
区 分 开 ( 如 图 4-22 所 示 )。 从 图 4-22 可 知 问题 的 模式 是 线性 可 分 的 。 4-24 





图 4-22 例题 P4.3 的 试用 判定 边界 


权 值 向 量 必须 与 判定 边界 垂直 ， 且 指向 神经 元 输出 为 1 的 区 域 。 下 一 步 将 确定 每 条 边界 
的 哪 一 边 应 该 输出 1。 其 中 一 种 选择 如 图 4-23 所 示 ， 图 中 阴影 部 分 表示 存在 神经 元 输出 为 1 
的 输入 区 域 ， 而 最 暗 的 阴影 表示 两 个 神经 元 的 输出 都 为 1 的 输入 区 域 。 请 注意 ， 这 个 解 对 应 
的 目标 值 分 别 为 ; 


be [n] ] waa 


| 
ende [e ed 





图 4-23 ”例题 P4.3 的 判定 区 域 


可 以 选择 权 值 向 量 为 4-25 


nS 


请 注意 : 权 值 向 量 的 长 度 并 不 十 分 重要 ， 重 要 的 是 它们 的 方向 。 它 们 必须 和 判定 边界 重 
直 。 现 在 可 以 在 判定 边界 上 选择 满足 式 (4.15) 的 一 个 点 来 计算 偏 置 值 : 
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至 此 完成 了 所 要 求 的 设计 。 
P4.4 请 用 感知 机 学 习 规则 求解 如 下 分 类 问题 。 按 顺序 重复 使 用 各 个 输入 向 量 ， 直 至 最 
426) 终 求 得 问题 的 解 ， 并 在 求 出 一 个 解 后 画 出 问题 的 图 形 。 


i» lade- ol = sje ell ode ed 


请 使 用 如 下 的 初始 权 值 和 偏 置 值 : 
W(0) = [0 0], 5(0 = 0 


解 
首先 利用 初始 的 权 值 和 偏 置 值 计算 与 第 一 个 输入 向 量 p 相应 的 感知 机 输出 a 
a= hardlim (W(0)p, + 64(0)) 


= kardlim [0 ofi] + o) = hardlim(0) = 1 


感知 机 实际 输出 值 a 不 等 于 输入 向 量 p 的 目标 值 i;,， 所 以 要 按 学 习 规 则 根据 误差 求解 
新 的 权 值 和 偏 置 值 。 


e=t,;-~a=0-1l1=-1 
W(1) = W(0 + ep? = [0 0] « (- D[2 2] =[-2 -2] 
à(1)2 6(0) +e = 0+(-1) 2-1 


然后 应 用 修改 后 的 权 值 和 偏 置 值 处 理 p, : 
a= hardlim(W(1)p, + 6(1)) 


= hardtim| [~ 2 -af ,| - r) = hardlim(1) = 1 


这 次 感知 机 的 实际 输出 等 于 输入 向 量 p, 的 目标 值 ;。 根 据 感知 机 的 学 习 规则 可 知 ， 
不 会 改变 权 值 和 偏 置 值 : 
W(2) = W(1) 
b(2) = b(1) 
[e 现在 处 理 第 三 个 输入 向 量 : 
a= hardlim(W(2)p, + 6(2)) 


= hardlim| [~ 2 - 272] 一 ] = hardlim(- 1) 2 0 
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可 以 看 出 感知 机 的 实际 输出 值 等 于 输入 向 量 p, 的 目标 值 名， 同样 不 会 修改 权 值 和 偏 置 值 。 
W(3) = W(2) 
b(3) = b(2) 
最 后 转 到 对 输入 向 量 p, 进行 处 理 ， 
a= hardlim(W(3)p, + b(3)) 


= hardlim | [- 2 -a|^| - r| = hardlim(- 1) = 0 


可 以 看 出 ， 感 知 机 当前 的 实际 输出 值 a 不 等 于 输入 向 量 ps 的 目标 值 4。 所 以 ， 感 知 机 
的 学 习 规 则 将 对 权 值 W 和 偏 置 值 b 进行 修改 ; 
e=tys-a=1-O02=1 
W(4 = W(3) + epi = [-2 -2]«(D[-1 t]=(-3 -1] 


b(4) = 6(3)+e =-1+12=0 
现在 必须 再 次 检测 第 一 个 输入 向 量 p| 。 感 知 机 这 次 的 实际 输出 值 a 等 于 第 一 个 输入 向 量 p 


的 目标 值 t1。 
a= hardlim(W(4)p, + 6(4)) 
= hardtin| L- 3 - ul? " o = hardlim(- 8) = 0 
所 以 不 会 改变 权 值 和 偏 置 值 。 
W(5) = W(4) 
b(5) = b(4) 
第 二 次 输入 向 量 p, 后 ， 由 于 感知 机 的 实际 输出 和 所 期 望 的 目标 输出 之 间 存 在 误差 ， 所 


以 又 需 修改 权 值 和 偏 置 值 : 
a= hardlim (W(5)p, + 6(5)) 


= hardiim | [- 3 - j| nu +0) = hardlim(- 1) = 0 


相应 地 ， 感 知 机 各 个 参数 新 的 取 值 为 : 
e=t-a=1-0=1 
W(6) = W(5) + epp = [-3 -1]«(OD0[1 -2]=[-2 -3] 
b(6) = b(5S)+e=04+1=1 

重复 上 述 过 程 ， 再 一 次 经 过 每 个 输入 向 量 ， 就 能 够 产生 没有 误差 的 正确 分 类 : 


a = hardlim(W(6)p, + 6(6)) = hardlim - 2 - 3]| 3| 4 1) 20-21 


= hardlim (W(6)p, + b(6)) = hardlim| [ 


& 
1 


& 
中 





hardlim (W(6)p, + b(6)) = hardlim [ + 1) 20-218 


[-2 -af 1] +i} = 12 





a = hardlim (W(6)p, 4 b(6)) = hardlim 


—— MM MM 
1 
t2 
i 
Uu 
uo 
-a 
wo 
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所 以 算法 已 经 收敛 ， 最 终 的 解 为 : 
W-[-2 -3] b=1 


现在 就 可 以 用 图 形 的 方式 表示 训练 数据 和 判定 边界 。 判 定 边界 由 下 式 给 定 : 
n= Wpt+d = Ww, ıp; + Wip +b =-2p, -3p,+1=0 


4 p =0， 可 以 求 得 判定 边界 在 坐标 轴 p, LAREN: 


mm = = -5 = i (如 果 p, = 0) 
,= 0， 同 样 可 以 求 得 判定 边界 再 坐标 轴 p. 上 的 截 距 为 ; 
b 
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求解 得 到 的 判定 边界 如 图 4-24 所 示 。 





图 4-24 例题 P4.4 的 判定 边界 
A 


请 注意 ， 上 述 判 定 边界 刚好 穿 过 一 个 训练 向 量 。 根 据 问题 的 定义 ， 这 是 完全 可 以 接受 
的 ， 因 为 求解 中 所 用 的 硬 极 限 函 数 当 其 输入 为 0 时 ， 函 数值 为 1， 在 例题 中 ， 该 向 量 的 目标 


值 就 是 1。 
P4.5 继续 考虑 例题 P4.3 中 的 四 类 判定 问题 。 利 用 感知 机 学 习 规 则 训练 一 种 感知 机 网 


络 来 求解 这 个 问题 。 


解 
如 果 采 用 与 例题 P4.3 中 相同 的 目标 向 量 ， 那 么 训练 集 为 ; 


CE 
CE 
bs [2] obs [lo 
| 


a 
00 deles Lillie EiL] 
wofa t]. wo | 


第 1 次 迭代 结果 为 ， 
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a fertis WO, +O) = hear[[ v] G) B] 
se [Ill nli 


WO = WOO) + opr =|? 由 :al o] 





b(1) = bo)+e=|1 
第 2 次 迭代 结果 为 ， 


a = hardlim(W(1)p, + b(1)) = hardlim || © v Il 


2 














sce [o] -fe [8] 
woswos oa 
ox [0] [9] + [2] 

第 3 次 和 迭代 结果 为 : 
a = hardlim(W(2)p, + b(2)) = ha satin [| ^. vl ,| :lo -| 
se [1-5] 7] 





WO) = WO2) «e = | ^. vllo -| ^l 


vis) -+e=| [3] 4|] 


从 第 4 次 和 迭代 到 第 8 DGRTNUGSUBE R, AR Ae BEP RUR TE REPRE DIC 


W(8) = W(7) = W(6) = W(5) = W(4) = W(3) 
b(8) = b(7) = b(6) = b(5) = b(4) = b(3) 
第 9 次 迭代 结果 为 : 





LIH 


a = hardlim (W(8)p, + b(8)) = ha ratim( | 7? 


NOTES 
IN 0 


WO) = W(8) + epr =|, 站 的 -| M 
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p(s) = b) +e = | "| +:[ | in 


自 此 算法 已 经 收 襄 ， 因 为 所 有 输入 模式 将 被 正确 分 类 。 最 终 的 判定 边界 如 图 4-25 所 示 。 
请 读者 将 这 个 结果 与 例题 P4.3 中 设计 的 网 络 相 比较 。 





图 4-25 例题 P4.5 最 终 的 判定 边界 


4.5 结束 请 


本 章 介绍 了 我 们 的 第 一 个 学 习 规则 一 一 感知 机 规则 。 感 知 机 学 习 规 则 属于 有 监督 学 习 类 
型 ， 其 中 学 习 规 则 用 一 组 正确 反映 网 络 行为 的 实例 的 方式 提供 。 当 每 个 输入 送 入 网 络 后 ， 该 
规则 调整 网 络 参数 ， 使 网 络 的 实际 输出 逐步 接近 相应 输入 的 目标 值 。 

虽然 感知 机 的 学 习 规则 非常 简单 ， 但 是 它 的 功能 十 分 强大 。 前 面 已 经 证 明 : 只 要 问题 的 
解 存在 ， 那 么 学 习 规则 总 能 收敛 到 正确 的 解 上 。 感 知 机 的 弱点 并 不 在 于 它 的 学 习 规则 ， 而 是 
在 于 其 简单 的 网 络 结构 。 标 准 的 感知 机 模型 只 能 分 类 线性 可 分 的 向 量 。 本 书 的 第 11 章 将 会 
把 感知 机 结构 扩展 到 多 层 感知 机 ， 以 求解 任意 的 分 类 问题 。 将 在 第 11 章 介 绍 的 反 传 学 习 规 
则 可 以 用 于 训练 这 些 网 络 。 

第 3 章 和 第 4 章 使 用 了 线性 代数 的 许多 概念 ， 如 内 积 、 投 影 、 距 离 ( 范 数 ) 等 。 在 后 面 各 
A, 读者 将 会 发 现 良好 的 线性 代数 基础 对 理解 神经 网 络 模型 是 非常 必要 的 。 第 5 章 和 第 6 章 
将 回顾 一 些 对 学 习 神经 网 络 较 为 重要 的 线性 代数 的 关键 概念 ， 目 的 是 为 深入 理解 神经 网 络 莫 
定 良 好 的 基础 知识 。 
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问题 的 严密 研究 。 指 出 对 待 感知 机 的 正确 态度 应 该 是 既 要 解释 感知 机 的 局 限 性 ， 而 且 
要 找到 克服 这 些 局 限 性 的 方向 。 不 幸 的 是 ， 该 书 悲观 地 认为 感知 机 的 局 限 性 说 明了 神 
经 网 络 领域 是 一 条 死胡同 。 尽 管 这 不 是 真实 的 情况 ， 但 它 还 是 在 此 后 若干 年 内 严重 影 
响 了 神经 网 络 的 研究 和 投资 。 
[Rose58] F. Rosenblatt, "The Perceptron: A probabilistic Model for information storage and or- 
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这 是 首 批 关于 神经 计算 的 书 之 一 。 
[WhSo92] D. White and D. Sofge( Eds. ), Handbook of Intelligent Control, New York: Van 
Nostrand Reinhold, 1992. 
该 书 收集 了 当时 一 些 关 于 控制 系统 中 的 神经 网 络 和 模糊 逻辑 的 研究 和 应 用 方面 的 
论文 。 
习题 
E4.1 考虑 下 面 定义 的 分 类 问题 


pe Lbs die led Lo] 
i-e er] 


(i) 画 出 能 求解 此 问题 的 单 神经 元 感知 机 结构 图 ， 并 指出 需要 多 少 个 输入 ? 
(站 ) 画 出 输入 数据 点 的 分 布 图 ， 并 根据 目标 值 对 其 进行 标记 。 用 (让 中 所 给 出 的 
网 络 能 够 求解 这 个 问题 吗 ? 为 什么 ? 
E4.2 考 虚 下面 定义 的 分 类 问题 : 


b] e Et] 
is [o] di Li] 


(i) 设计 一 个 求解 这 个 问题 的 单 神经 元 感知 机 。 选 择 与 判定 边界 垂直 的 权 值 向 
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量 以 图 形 方式 设计 出 网 络 。 
(ii) 用 全 部 4 个 输入 向 量 验证 求解 结果 。 
(iii) 用 求解 结果 对 下 面 4 个 输入 向 量 分 类 。 可 以 手工 计算 ， 也 本 以 用 MATLAB HA: 
-2 1 0 -1 
pm = | 0 | Ps = ] m= [| m=|- ,| 
(iv) 〈 记 ) 中 哪个 向 量 总 是 用 同一 方式 分 类 而 同 W, b 的 选择 无 关 ? 哪些 向 量 依赖 
FWA bE? 为 什么 ? 
E4.3 用 解 不 等 式 的 方法 求 习 题 E4.2 的 解 (参考 例题 P4.2)， 并 用 新 的 求解 结果 重 做 习 
Ei E4.24 的 ( 订 和 (让 ) 题 。( 由 于 不 能 以 成 对 的 方式 将 权 值 和 偏 置 值 分 离开 来 ， 所 
以 这 里 的 求解 过 程 要 比例 题 P4.2 复杂 。) 
E4.4 对 下 列 初始 参数 ， 应 用 感知 机 学 习 规 则 求解 习题 E4.2 的 分 类 问题 ， 并 用 新 的 求 
解 结果 重 做 习题 E4.2 0, GDA GDA. 
wo) = [0 0], b(0)20 
EA.5 用 数学 方法 (而 不 是 图 形 方式 ) 证 明 下 面 问题 对 于 两 输入 / 单 神经 元 感知 机 而 言 是 


不 可 解 的 。 o [ps idle e [L1] = of 


bs Lei Led 


GER: 将 输入 /目标 分 类 要 求 以 限制 权 值 和 偏 置 值 的 不 等 式 的 方式 写 出 来 。) 
EA.6 有 时 在 感知 机 网 络 中 也 会 采用 对 称 硬 极限 传输 函数 hardlims (如 图 4-26 所 示 )， 而 

不 采用 硬 极限 传输 函数 hardlim。 此 时 目标 值 也 将 变 成 在 集合 | - 1，1] 中 取 值 ， 

而 不 是 在 集合 [0，1j 中 取 值 。 

(i) 写 出 分 别 将 有 序 集 [0，1] 的 数 映射 到 有 序 集 [ - 1，1] 的 简单 表达 式 ， 以 及 
执行 道上 映射 的 表达 式 。 

Gi) 考虑 两 个 权 值 和 偏 填 值 都 相同 的 单 神经 元 感知 机 。 第 一 个 网 络 采用 在 集合 
[0，1] 中 取 值 的 硬 极限 函数 hardlim， 而 第 二 个 网 络 采用 对 称 硬 极限 沙 数 
hardlims。 如 果 提 交 给 两 个 网 络 的 输入 都 是 p， 并 按照 感知 机 的 学 习 规则 更 
新 输入 ， 那 么 它们 的 权 值 还 将 会 一 样 吗 ? 

(ii) 如 果 对 两 个 神经 元 的 权 值 的 改变 不 一 样 ， 那 么 它们 有 什么 不 同 ? 为 什么 ? 

(iv). 对 采用 硬 极限 传输 函数 的 标准 感知 机 设 定 初 始 权 值 和 偏 置 值 ， 试 为 采用 对 
称 硬 极限 传输 函数 的 感知 机 构造 一 个 初始 化 方法 ， 使 得 两 个 感知 机 能 够 在 
训练 同样 的 数据 时 ， 响 应 也 一 样 。 


a = hardlims(n) 





n= Wp+b 


图 4-26 
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EA.7 下 面 定 义 的 有 序 集 是 通过 测量 Fuzzy Wuzzy HWA HORAN HBS 
和 耳 打 的 长 度 获得 的 。 目 标 值 表 明了 相应 输入 向 量 表示 的 是 兔子 (0) 还 是 能 (1)。 
输入 向 量 的 第 一 个 元 素 是 玩具 的 重量 ,第 二 个 元 素 是 玩具 耳 打 的 长 度 。 


bs] ner] 


i-e lie E] 
P- Lle- ile 


(i) 用 MATLAB 对 一 个 网 络 进行 初始 化 和 训练 ， 以 求解 这 个 “实际 ”问题 。 
(ii) 用 MATLAB 和 输入 向 量 来 验证 所 求 的 权 值 和 偏 置 值 。 
(iii) 改变 输入 向 量 , 使 任何 解 的 判定 边界 都 不 会 通过 一 个 原始 输入 向 量 ( 即 保证 
求解 过 程 只 会 得 到 和 鲁 棒 性 判定 边界 )。 然 后 重新 训练 该 网 络 。 
E4.8 请 重新 考虑 例题 P4.3 和 P4.5 中 给 出 的 四 种 类 别 的 分 类 问题 。 假 设 将 输入 向 量 p, 


改 为 
v- [i 


Ci) 这 时 问题 仍然 是 线性 可 分 的 吗 ? 请 用 图 来 表示 管 案 。 
Cii) 利用 MATLAB 工具 ， 对 一 个 网 络 进行 初始 化 和 训练 以 求解 这 个 问题 。 请 解 


释 求解 结果 。 
(i) 如 果 将 p, KH p, = | KA ， 这 时 问题 是 线性 可 分 的 吗 ? 


(iv) REGDE PAEH p,， 利 用 MATLAB 工具 ， 对 一 个 网 络 进行 初始 化 和 训 
练 以 求解 这 个 问题 。 请 解释 求解 结果 。 
E4.9 下 面 是 一 种 变形 的 感知 机 学 习 规则 : 
wee = wet + aep? 
b*" = b" + ae 
其 中 称 a 为 学 习 速 率 。 证 明 这 个 算法 的 收敛 性 。 证 明 中 需要 对 学 习 速 率 作出 限制 
Uu? 试 作出 解释 。 
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5.1 目标 


从 第 3 章 和 第 4 章 可 以 看 出 : 将 神经 网 络 的 输入 、 输 出 以 及 权 值 矩阵 的 行 作为 向 量 看 待 
是 非常 有 好 处 的 。 这 一 章 将 详细 研究 这 些 向 量 空间 ， 并 且 复习 一 些 对 分 析 神 经 网 络 十 分 有 用 
的 向 量 空间 性 质 。 这 里 首先 将 从 一 般 的 定义 开始 ， 并 将 这 些 定义 应 用 于 特定 的 神经 网 络 问题 
中 。 本 章 和 第 6 章 所 讨论 的 概念 将 被 广泛 应 用 于 本 书 其 他 各 章 。 这 些 概念 是 深入 理解 神经 网 
络 工 作 原 理 的 关键 。 


5.2 理论 和 实例 


线性 代数 是 理解 神经 网 络 所 必需 的 数学 知识 的 核心 。 读 者 在 第 3 章 和 第 4 章 中 看 到 了 神 
经 网 络 输入 /输出 向 量 表示 的 应 用 。 而 且 ， 不 难 发 现 将 权 值 矩 阵 的 行 看 作 是 和 输入 向 量 处 于 
同一 向 量 空间 中 的 向 量 也 是 十 分 有 用 的 。 

在 第 3 章 的 Hamming MA +, WRENS Ties, KL, WR 
任务 就 是 计算 标准 向 量 和 输入 向 量 之 间 的 内 积 。 在 单 神经 元 感知 机 网 络 中 ， 也 可 看 到 判定 边 
界 总 是 和 其 权 值 矩阵 (一 个 行 向 量 ) 垂 直 。 

本 章 将 复习 在 神经 网 络 中 有 关 向 量 空 间 的 一 些 基本 概念 (比如 内 积 、 正 交 性 等 )。 这 里 将 
从 向 量 空间 的 一 般 定义 开始 ， 给 出 神经 网 络 应 用 中 常用 的 一 些 向 量 基本 性 质 。 

在 开始 前 要 说 明 一 下 向 量 的 记号 。 到 目前 为 止 所 讨论 的 向 量 都 是 实数 的 有 序 n 元 组 
( 列 )， 且 用 小 写 的 黑 正 体 字 母 表示 ， 例 如 ， : 

x= [xl x» … x]? (5.1) 

KERER PRR. R” ERER n 维 欧 基 里 德 空间 。 这 一 章 将 讨论 比 欧 基 里 德 空间 
外 "更 一 般 的 向 量 空间 ， 这 些 更 一 般 的 向 量 将 用 手写 体 表 示 ， 比 如 4。 同时 本 章 还 将 说 明 这 
些 一 般 向 量 通 常 是 如 何 用 一 列 数 来 表示 的 。 

5.2.1 线性 向 量 空间 

到 底 什 么 是 向 量 空间 ? 这 里 要 给 出 一 个 非常 一 般 的 定义 。 这 个 定义 看 起 来 比较 抽象 ， 我 
们 将 给 出 很 多 具体 的 实例 。 应 用 这 一 普遍 的 定义 不 仅 可 以 解决 一 大 类 问题 ， 而 且 还 可 以 使 读 
者 更 加 深入 地 理解 这 一 概念 。 

定义 ”一 个 线性 向 量 空间 X 是 一 组 定义 在 标量 域 尺 上 且 满 足 如 下 条 件 的 元 素 集合 (向 
8): 

1) 一 个 称 为 向 量 加 的 操作 定义 为 : 如 果 € X(o 是 XX 的 一 个 元 素 ) 和 wyEX， BAY 

+ YEX, l 

2) X * dy - dy Xo 

3)(*-«y)4z29x*(9y 9 2) 
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4) 存在 惟一 一 个 称 为 零 向 量 的 向 量 0 E 对 ， 对 于 所 有 的 EX, E: X+0 =X 

5) 对 于 每 一 个 向 量 w€ X, 在 中 只 有 惟一 一 个 被 称 为 - Xx 的 向 量 , WE x+ 
(-%)=0. 

6) 一 个 称 为 向 量 乘 的 操作 定义 为 : 对 所 有 ac KP MR, URSA VEX, A 
ax € X, 

7) 对 于 任意 的 v € X MEREL, E 1o Xo 

8) 对 于 任意 两 个 标量 a€ 和 65E F, UREE VEX, A a(bo) 2 Cab) Xo 

9) (a+ b): 2 ax * bx 

10) a (2 * 9) 2 azxY * ac 

为 了 说 明 上 述 条 件 ， 这 里 将 给 出 一 些 例 子 ， 并 且 确 定 它们 是 否 为 向 量 空间 。 首 先 考虑 二 
维 的 欧 基 里 德 空间 R?， 如 图 5-1 所 示 。 显 然 它 是 一 个 向 量 空间 ， 并 且 对 于 向 量 加 和 标量 乘 
操作 的 标准 定义 而 言 ， 全 部 满足 上 述 10 个 条 件 。 

R 的 子 集 又 将 如 何 ? R 的 什么 子 集 仍 然 是 向 量 空 间 ( 子 空间 )?” 考虑 图 5-2 中 方 框 内 的 区 
RMX, CMU SELLE 10 个 条 件 吗 ? 显然 该 区 域 连 条 件 1 都 不 能 满足 。 如 图 5-2 所 示 ， 
向 量 y Hy EX 的 区 域内 ,但 是 + y 却 可 能 不 在 X 的 区 域内 。 从 这 个 例子 可 以 看 出 ， 任 
何 限定 边界 的 集合 都 不 可 能 是 向 量 空间 。 

PAR? 存在 是 向 量 空间 的 任何 子 集 吗 ? 考虑 图 5-3 中 的 直线 X (BERRA mI AR 
长 )， 那 么 这 条 线 是 向 量 空间 吗 ? 将 这 个 问题 留 给 读者 ， 请 读者 证 明 此 直线 的 确 满 足 上 述 所 
有 10 个 条 件 。 那 么 是 否 所 有 这 种 无 限 长 的 直线 都 满足 上 述 10 个 条 件 ? 实际 上 ， 所 有 经 过 坐 
标 轴 原点 的 直线 都 满足 上 述 10 个 条 件 。 但 是 ， 如 果 直 线 不 经 过 坐标 轴 的 原点 ， 那 么 至 少 这 
种 直线 不 能 满足 第 4 个 条 件 。 


X2 x2 


R? 


X1 x} 





图 5-1 图 5-2 5-3 


除了 标准 的 欧 基 里 德 空间 之 外 ， 还 有 许多 其 他 的 集合 同样 满足 向 量 空间 的 10 个 条 件 。 
例如 考虑 最 高 阶 数 小 于 或 等 于 2 的 多 项 式 集合 PP。 此 集合 的 两 个 元 素 是 
N=2+1+4t 
(5.2) 
y = 1+5t 
如 果 读 者 已 经 习惯 于 将 向 量 看 作 是 一 列 数字 ， 那 么 这 两 个 元 素 的 确 是 奇怪 的 向 量 。 但 是 
请 记 住 ， 一 个 集合 只 要 满足 上 述 10 个 条 件 ， 就 可 以 被 认为 是 一 个 向 量 空间 。 那 么 集合 P 
是 否 也 完全 满足 上 述 条 件 呢 ? 如 果 将 两 个 阶 数 小 于 或 等 于 2 的 多 项 式 相 加 ， 其 结果 仍然 是 一 
个 阶 数 小 于 或 等 于 2 的 多 项 式 。 因 此 ， 集 合 P2 满足 上 述 第 1 个 条 件 。 另 外 ， 将 一 个 标量 和 
一 个 多 项 式 相 乘 ， 是 不 会 改变 该 多 项 式 的 阶 数 的 ， 所 以 集合 P 满足 上 述 第 6 个 条 件 。 显 
然 ， 验 证 集合 P? 满足 上 述 10 个 条 件 并 不 是 一 件 困 难 的 事 ， 集 合 P? 的 确 是 一 个 向 量 空间 。 
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假设 Cio.0 是 定义 在 [0，1] 区 间 上 的 所 有 连续 函数 的 集合 ， 该 集合 的 两 个 元 素 是 
£y = sin(t) 
y = e? 
集合 的 另 一 个 元 素 如 图 5-4 BE f(t) 
由 于 两 个 连续 函数 的 和 仍然 是 一 个 连续 函数 ， 一 个 标量 乘 以 一 个 
连续 函数 仍然 是 一 个 连续 函数 ， 所 以 集合 Cro,1] 也 是 一 个 向 量 空间 。 1 
这 个 集合 与 前 面 讨论 过 的 向 量 空间 不 同 ， 它 是 无 限 维 的 。 本 章 后 面 将 - 
定义 维 的 含义 。 


5.2.2 线性 无 关 


前 面 已 经 给 出 了 向 量 空间 的 定义 ， 从 现在 开始 将 研究 向 量 的 一 些 图 54 
性 质 。 这 里 要 研究 的 第 一 个 性 质 就 是 向 量 的 线性 无 关 性 和 线性 相关 
性 。 
如 果 对 n SHB, Xo, cn. OM, FE n 个 标量 a1，a2，…，an( 这 n 个 标量 


中 至 少 有 一 个 是 非 零 的 )， 满 足 
A,X, + az22+…+arm = 0 (5.4) 


(5.3) 


-t 


那么 124| 是 线性 相关 的 。 
线性 无 关 与 之 相反 ， 如 果 A,X) + 8522 t+ + aV =0, 当 且 仅 当 每 个 a; 均等 于 零 ， 
那么 称 | Xi 是 一 组 线性 无 关 的 向 量 。 
注意 这 些 定义 实际 上 等 价 于 ， 如 果 一 个 向 量 集合 是 无 关 的 ， 那 么 这 个 集合 中 的 任何 向 量 
都 不 能 表示 成 该 集合 中 其 他 向 量 的 线性 组 合 。 
作为 一 个 线性 无 关 的 实例， 考虑 第 3 章 中 的 模式 识别 问题 。 两 个 标准 模式 ( 桶 子 和 苹果 ) 
由 如 下 两 个 向 量 表示 : 
1 
， P= | 1 | (5.5) 
-1 








令 aip + a2p, = 0， 则 有 














a; + 42 0 
- aj + 05 =| 0 (5.6) 
— a, + (- a5) 0 


但 式 (5.6) 只 有 当 a, a5 = 0 时 成 立 。 所 以 p, 与 p, 线性 无 关 。 
现在 考虑 阶 数 小 于 等 于 2 的 多 项 式 空间 P? 中 的 向 量 。 设 该 空间 的 中 的 三 个 向 量 分 别 是 


Hole tt ,% = 242t4+ P= lot (5.7) 
WRS a,=1, a22 -1, a- 1, MBA 
AX + 2X2 + 3X3 = 0 (5.8) 


所 以 ， 这 三 个 向 量 线性 相关 。 
5.2.3 生成 空间 
下 面 将 定义 对 向 量 空间 的 维 数 ( 大 小 ) 进 行 定义 。 为 此 ， 首 先 给 出 一 个 生成 集合 的 概念 。 
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假设 X 是 一 个 线性 空间 ， 且 14%!1，zU，，…，Wmn| 是 中 一 般 向 量 的 子 集 。 该 子 集 能 够 
生成 了， 当 且 仅 当 对 每 一 个 YE X， 都 存在 一 组 标量 xi. xj. s Ems BE OY oxi 
xiüitok xU. 也 就 是 说 ， 如 果 空 间 中 的 每 个 向 量 都 能 写成 该 子 集中 向 量 的 线性 组 合 ， 
那么 这 个 子 集 就 能 够 生成 一 个 空间 。 

基 集 ”一 个 向 量 空间 的 维 数 是 由 生成 该 空间 所 需要 的 最 少 向 量 个 数 决定 航 。 由 此 导出 了 
基 集 的 概念 。XX 的 基 集 是 由 生成 X 的 线性 无 关 的 向 量 所 组 成 的 集合 。 任 何 基 集 包 含 了 生成 
空间 所 需要 的 最 少 个 数 的 向 量 。 因 此 X 的 维 数 就 等 于 基 集 中 元 素 的 个 数 。 任 何 向 量 空间 都 
可 以 有 多 个 基 集 ， 但 每 一 个 基 集 都 必须 包含 相同 数目 的 元 素 ( 请 参考 | Stra80j 中 的 有 关 证 
BA) 。 

以 线性 空间 P? 为 例 ， 该 空间 的 一 个 可 能 的 基 是 : 

Uy =1, V3 =t, Uu; = 0? (5.9) 

显然 任何 一 个 阶 数 小 于 或 等 于 2 的 多 项 式 都 可 以 通过 这 三 个 向 量 的 线性 组 合 表示 。 但 请 
注意 ，P? 中 的 任意 三 个 线性 无 关 的 向 量 都 可 以 组 成 该 空间 的 一 个 基 。 比 如 该 空间 的 基 也 可 
以 是 : 


Q;21,u;214t,W21et4? (5.10) 


5.2.4 内 积 


从 第 3 章 和 第 4 章 对 神经 网 络 的 讨论 中 可 以 发 现 ， 内 积 是 许多 神经 网 络 癌 作 的 基础 。 这 
里 将 介绍 内 积 的 一 般 定义 ， 并 给 出 相关 的 一 些 实例 。 

AR ”任何 满 足 如 下 列 条 件 的 关于 x Ay 的 标量 函数 都 可 以 定义 为 一 个 内 积 (，%): 

1) (x, y)= (Y, X); 

2) (X, aq, + bd) =al X, Y1) + oF, Y2); 

3) (Y,20z0, ?ÁEL DOR x PRB CX, x) = 0。 

HFR 中 的 向 量 而 言 ， 其 标准 内 积 为 

xy = XI1Y1 + X272 + + Xnyn (5.11) 

但 是 这 并 不 是 惟一 可 能 的 内 积 形式 。 比 如 ， 对 定义 在 [0，1] 区 间 内 所 有 连续 函数 的 集合 
C-0.1: 而 言 ， 下 面 给 出 的 标量 函数 ( 式 5.12) 就 是 它 的 一 种 内 积 形式 (请 参见 例题 P5 .6)。 


(x,y) = foxte) ge) ae (5.12) 


0 


5.2.5 范 数 

范 数 “” 我 们 要 定义 的 下 一 个 操作 是 范 数 ， 它 是 一 个 基于 向 量 长 度 概念 的 党 作 。 如 果 一 个 
标量 函数 | ~ || 满足 以 下 一 些 性 质 ， 则 称 其 为 范 数 : 

1) ixl z0; 

2) | xl 20, ?4HDO x20; 

3) 对 所 有 的 标量 有 | ao ll 9 Lall vis 


4) 1r+2gslxzl+llzls。 
实际 上 ， 有 很 多 函数 都 可 以 满足 上 述 条 件 。 一 个 普通 的 范 数 是 基于 内 积 按 如 下 方式 定义 


EA 


64 = PE HB GE tH 





的 : 
ll ol = Cor, 2012 (5.13) 
对 于 欧 基 里 德 空间 RR" 而 言 ， 其 内 积 的 定义 为 : 
| xl = (x'3)!2 4 x? + x2 ace + x2 (5.14) 


在 神经 网 络 应 用 中 ， 通 常 要 将 输入 向 量 归 一 化 ， 也 即 每 个 输入 向 量 的 |p, || =L 
角度 ”利用 上 述 范 数 和 内 积 的 定义 ， 可 以 对 维 数 大 于 2 的 向 量 空间 的 角度 概念 进行 扒 
广 。 这 里 可 以 将 向 量 w My 之 间 的 角度 0 定义 为 ; 


_ _ (x,y) - 
cosh = TT XII YI (5.15) 


5.2.6 正 交 性 


既然 前 面 定义 了 内 积 操作 ， 那 么 现在 就 可 以 介绍 正 交 性 这 一 重要 的 概念 了 。 

EZE 如 果 两 个 向 量 XY，wyEX， HEC, y)=0, 那么 说 这 两 个 向 量 是 正 交 的 。 

正 交 性 是 神经 网 络 中 的 一 个 重要 概念 。 在 第 7 章 中 读者 将 会 看 到 ， 当 一 个 模式 识别 问题 
的 模式 向 量 是 归 一 化 的 和 正 交 的 ， 那 么 利用 Hebb 规则 对 一 个 线性 联想 器 神经 网 络 进行 训 
练 ， 可 以 得 到 很 好 的 识别 效果 。 

除了 有 正 交 的 向 量 之 外 ， 还 可 以 有 正 交 的 向 量 空间 。 如 果 向 量 o € X 正 交 于 子 空间 XI 
中 的 每 一 个 向 量 ， 则 or 正 交 于 子 空间 XX， 通常 将 其 记 为 o | 对 ;|。 如 果子 空间 X 中 的 每 一 
个 向 量 都 正 交 于 子 空间 X 中 的 每 一 个 向 量 ， 则 子 空间 X 正 交 与 子 空间 X，,， 对 此 用 XL 
X2 来 表示 。 

图 5-5 给 出 了 第 3 章 感 知 机 实例 中 (参见 图 3-4) 所 用 到 的 两 个 正 交 
ZE po p 平面 是 RM? 的 子 空间 ,该 平面 与 p, WR? 的 另外 一 个 子 P3 
SEDEX. po p, 平面 是 感知 机 网 络 的 判定 边界 。 在 例题 P5.1 中 ， 
读者 将 会 看 到 : 当 偏 置 值 为 零 时 ， 感 知 机 的 判定 边界 是 一 个 向 量 空间 。 

Gram-Schmidt 正 交 化 方法 

线性 无 关 和 正 交 性 是 相互 联系 的 。 可 以 将 线性 无 关 向 量 集 合 转换 
为 一 个 正 交 向 量 集合 ， 而 且 两 者 所 生成 的 向 量 空间 是 相同 的 。 这 个 标 P 
准 的 转换 过 程 被 称 为 Gram-Schmidt 正 交 化 方法 。 

假设 有 n 个 线性 无 关 的 向 量 A. qo. cn. Y IUS BBR 图 55 
些 向 量 得 到 n NERY, 95, °°, n, PADUA HERAT 
线性 无 关 向 量 作为 第 一 个 正 交 向 量 ; 


P2 


Vv = Yi (5.16) 
为 了 得 到 第 二 个 正 交 向 量 ， 可 以 将 wy, 减 去 处 于 2 方向 上 的 分 量 。 据 此 ， 可 以 得 到 下 式 : 
Vy = Yı - am (5.17) 
其 中 a 必须 选择 合适 的 值 ， 使 v 正 交 于 02, tR: 
(44,93) = (94,95 - AY) = (45,95) -alv v) = 0 (5.18) 
或 
(9, Y2) (5.19) 


as 
(94,9) 
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投影 因此， 为 了 得 到 v Er 方向 上 的 分 量 oo ， 需 要 求 这 两 个 向 量 的 内 积 。 也 称 
a^, 是 n 在 向 量 o, 上 的 投影 。 
如 果 继 续 这 一 过 程 ， 那 么 第 步 是 


S (V, M) 
n = 一 一 一 5.20 - 
b= 9-25) (5.20) 


为 了 具体 说 明 这 个 过 程 ， 请 考虑 下 面 在 空间 $M* 中 的 线性 无 关 向 量 ;: 


-| nli 
"=j fp B=], (5.21) 


第 一 个 正 交 向 量 为 : 
Vi= y= H (5.22) 
第 二 个 正 交 向 量 的 计算 如 下 所 示 : 
[2 1] 
vente BI RI eg] tt] 
这 一 过 程 可 以 用 图 5-6 来 表示 。 
y2 y, V2 
Ye i av, 


图 5-6 Gram-Schmidt 正 交 化 实例 
标准 正 交 向 量 另外 ， 还 可 以 将 向 量 vy, v, 分 别 除 以 其 范 数 ， 从 而 得 到 一 个 标准 正 交 
向 量 集 。 


验证 正 交 化 过 程 可 使 用 Neural Network Design Demonstration. Gram-Schmidt 
(nnd5gs) o 





5.2.7 向 量 展开 式 


请 注意 : 前 面 用 手写 体 字符 (%) 表 示 一 般 的 向 量 ， 用 黑体 (x) 来 表示 路 * 中 的 向 量 ， 而 
RR" 中 的 向 量 也 可 以 用 一 列 数 的 形式 来 表示 。 本 节 将 说 明 有 限 维 空间 中 的 一 般 向 量 也 可 以 表 
示 为 一 列 数 的 形式 ， 并 量 这 些 一 般 向 量 在 某 些 方面 和 HM" 中 的 向 量 是 等 价 的 。 

向 量 展开 式 ”如果 向 量 空间 X 的 基 集 为 {V1，%V，，…，%,1， 那 么 任意 € X AMF 


66 FPLE II 4 GE tf 





惟一 的 向 量 展开 式 : 
D = Man = KV, + Va bct + XQ (5.24) 
所 以 ， 有 限 维 向 量 空间 中 的 任意 向 量 都 可 以 用 一 一 列 数 来 表示 : 
xX = [ x1 X23 see xn]? (5.25) 


这 里 的 x 表示 一 般 的 向 量 w。 当 然 为 了 解释 x 的 含义 ， 还 需要 知道 基 集 是 什么 。 对 同一 个 
直 而 言 。 如 果 基 集 发 生 了 变化 ,那么 x 也 随 着 发 生变 化 。 下 一 小 节 将 对 此 进行 更 详细 的 讨 
论 。 
dE AE B S s ERE SERE (BU, v) =0，i 闫 j)， 邦 么 可 以 非常 容易 计算 出 上 述 展 
开 式 中 的 系数 ， 只 要 在 式 (5.24) 两 边 求 与 % 的 内 积 即 可 : 
(v, Xx) = (5, Ð 2%) = DECRE = «,(%, 9) (5.26) 


BID, EXEBESR DIU RO FRAN: 

14,20 (5.27) 
当 基 集中 的 向 量 不 正 交 时 ， 计 算 上 述 展开 式 中 的 系数 要 相对 复杂 一 些 。 在 下 一 小 节 中 将 

会 介绍 这 种 情况 。 

EET 


互 逆 基 向 量 如果 需 要 向 量 展 开 式 ， 而 基 集 又 不 是 正 交 的 ， 那 么 就 必须 引入 由 下 列 等 式 
所 定义 的 互 逆 基 底 : 


(r$) = 人， 7J (5.28) 
,= 
FPR GBH, v2, 0, mni, MABRAEH( ry, ro tt, mio 
如 果 互 着 基 向 量 已 经 表示 为 一 列 数 的 形式 (通过 向 量 展开 式 ) ， 并 且 采 用 了 标准 内 积 
(ri, 9) = rfv; (5.29) 
BA, (5.28) FTEURBABEEBWUE SUR N: 
R'B =I (5.30) 
其 中 
B=[v v … v] (5.31) 
R= [r rm … r,] (5.32) 
所 以 ， 可 以 从 下 式 求 得 R: 
R’ = B! (5.33) 
最 后 可 根据 R 的 列 求 得 互 逆 基 向 量 。 
现在 请 考虑 向 量 展 开 式 
X = u Vy + xa» + + xu, (5.34) 
求 式 (5.34) 的 两 边 和 ri 之 间 的 内 积 ; 
(ri, X) = xi( ri 94) + xri, Va) +e + xn Va) (5.35) 


根据 定义 得 
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Cris Va) = (ri, 93) 2 = (room) = 0 
(r1,%) = 1 (5.36) 
所 以 ， 上 述 展开 式 中 的 第 一 个 系数 是 
x; (r, %) (5.37) 
一 般 情况 下 ， 展 开 式 中 的 第 7 个 系数 为 
a; = Cry, 2X) (5.38) 
现在 请 考虑 如 下 实例 ， 设 有 两 个 基 疝 量 : 
w= | | w= [| (5.39) 
KH, Lin $ 表示 这 两 个 列 向 量 是 按 咒 * 中 的 标准 基 向 量 展开 的 结 
Bp? 中 的 标准 基 向 量 如 图 5-7 所 示 ， 分 别 为 图 中 的 向 量 s, 和 so. v, 
现 假设 要 用 这 两 个 基 向 量 对 下 面 的 向 量 进行 展开 ; / 
0 
xs =| 3 (5.40) " 一 
2 一 
由 于 要 按照 两 个 不 同 的 基 集 对 向 量 进行 展开 ， 所 以 这 里 必须 要 注意 $i 
各 个 数学 符号 都 要 明确 地 标注 。 ast 
展开 该 向 量 的 第 一 步 是 找到 互 逆 基 向 量 : 
2 117 3 -i 3 - 3 
pz -| ) | = 1 Pee NE (5.41) 
73 3 -3 3 - 
下 面 求 展 开 式 中 的 系数 : 
0 
ae | -| 3 =- 
(5.42) 


Hoe 


X=- ta, +1 (5.44) 
注意 现在 有 两 种 x 的 展开 式 ， 分 别 由 x’ Rx" 表示 ， 即 是 


于 是 有 (如 图 5-8 所 示 ): 


5-11 


5-12 
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-V2 
图 5-8 向 量 展开 
3 1 
X = 0s) + F582 =- 37% 41% (5.45) 





由 此 可 以 看 出 ， 当 要 用 一 列 数字 表示 一 个 一 般 向 量 时 ， 必 须知 道 其 向 量 展开 式 所 采用 的 


基 集 是 什么 。 在 本 书 中 如 果 没 有 特殊 说 明 ， 那 么 假设 所 采用 的 都 是 标准 基 集 。 


换 。 


5-13 


5.3 





式 (5.43) 说 明了 ov 的 两 种 不 同 表 示 方 式 之 间 的 关系 : x = B-!x”。 这 一 操作 也 称 为 基 变 
在 后 面 几 章 某 些 神经 网 络 性 能 分 析 中 ， 基 变换 非常 重要 。 

验证 向 量 展 开 过 程 可 使 用 Neural Network Design Demonstration Reciprocal Basis 
(nnd5rb) 。 


小 结 


线性 向 量 空间 


a 
i= 


定义 ”一 个 线性 向 量 空间 X 是 一 组 定义 在 标量 域 忆 上 且 满 足 如 下 条 件 的 元 素 ( 向 量 ) 集 


1) 定义 一 个 称 为 向 量 加 的 操作 : MR ve X Cv 是 X 的 一 个 元 素 ), Hy € X, 那么 
X+YEX, 

2) «Y «qd 2 dy 9x. 

3) (N+ Y)+Z=K4(Y+Z). 

4) 存在 惟一 一 个 称 为 零 向 量 的 向 量 0 CX, MFA VEX, 8 x+0 =% 

5) 对 于 每 一 个 向 量 wE 于 ,在 并 中 只 有 惟一 一 个 被 称 为 - v 的 向 量 ， 满 足 X+ 
(-%)=0. 

6) 定义 一 个 称 为 乘 的 操作 : 对 所 有 标量 a EF 以 及 所 有 癌 量 AEX， 有 ave X. 

7) 对 于 任意 的 XE X Mil, 7H 1o 全 。 

8) 对 于 任意 两 个 标量 a€ F MOCK, UREA Y € X, A al by) - Cab) s. 

9) (a+b) X= ax + bXo 

10) a( X+ Y) =aX + adc 


线性 无 关 


如 果 对 SL, Xa, 3s x, 而 言 ， 存在 ”个 标量 cl， 42, 9 a, (HP BDA 
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一 个 不 是 零 )， 满 足 
QM + aX + "^ + aU. = 0 
那么 124| 是 线性 无 关 的 。 5-14 


生成 空间 

假设 X E — PRESB, Hla, to, ts Unli X PRAT. APRA 
够 生成 了， 当 且 仅 当 对 每 一 个 YE， 都 存在 一 组 标量 x), 2) occ. xs, HAL X m xi 
+ X23 + Xs no 


AR 


任何 满足 下 列 条 件 的 关于 x M y Mbp e REBT LAXE LA PARC, y): 
1) (x,y) =(9,%); 

2) (X, aq, + bY) = al X, Y1) + bX, Y2); 

3) (x,20 z0, SAM x ES RE HEISE Co, o) 206 


如 果 一 个 标量 函数 | x || 满足 以 下 一 些 性 质 ， 则 将 其 称 之 为 范 数 ; 
1) ll x || z0; 

2) | vill =0， 当 且 仅 当 x=0; 

3) 对 所 有 的 标量 wa 有 | ax || =! alll xil; 

4) lx «llli lies 


向 量 之 间 的 夹 角 
向 量 ov 和 多 之 间 的 角度 9 定义 为 : 
__(%,%) 
cos0 = TA o T 
正 交 性 


如 果 两 个 向 量 y ,YE 天 满足 (YY,2)=0， 那 么 说 这 两 个 向 量 是 正 交 的 。 
Gram-Schmidt 正 交 化 方法 
假设 有 n 个 线性 无 关 的 向 量 ga. Y2 co. Yro 根据 这 些 向 量 得 到 n 个 正 交 向 量 v, 
Vy, n, Vas 
= "a 














& (Vis Yr) 
Wy = - LO Y, 5-15 
k Ye 之 (Vis Vi) ! 


Hope ns Ye y, Ey, En, 上 的 投影 。 


q^) 


向 量 展开 式 


n 
X= M ai; = Vy + XVa + + XV, 
i=l 
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对 正 交 向 量 而 言 ， 
(v 9) 
77 (5,0) 
互 逆 基 向 量 
[0 i#j 
(r op = [n =j 
x; = (rj, X) 
为 了 计算 互 道 基 向 量 ， 可 采用 如 下 方法 : 
B = [v vY c7 v, | 
R= [ri n o |e r, | 
R? - B-! 
也 可 用 和 矩阵 形式 表示 为 
5-16 x’ = Bx 
5.4 例题 


P5.1 考虑 如 图 5-9 中 所 示 的 单 神经 元 感知 机 网 络 。 第 3 章 中 给 出 了 该 网 络 的 判定 边界 
为 (参见 式 (3.6)): Wp+8=0。 试 证 明 : 4p 5-0, 那么 判定 边界 是 一 个 向 量 空间 。 
输入 对 称 硬 极限 层 
/NA 





a = hardlims(Wp + b) 


5-9 单 神经 元 感知 机 


解 

该 判定 边界 如 果 是 一 个 向 量 空间 就 必须 满足 本 章 开 始 所 给 出 的 10 个 条 件 。 条 件 1 要 求 
两 个 向 量 空间 之 和 仍然 是 一 个 向 量 空间 。 令 p 和 p, 分 别 是 判定 边界 上 的 两 个 向 量 ， 它 们 一 
定 满足 : 

Wp, = 0,Wp, = 0 
将 上 述 两 个 等 式 相 加 ， 有 
W(p, * P2) =0 

由 此 可 以 看 出 这 两 个 向 量 之 和 也 在 判定 边界 上 。 

显然 ， 判 定 边 界 能 够 满足 条 件 2 和 条 件 3。 条 件 4 要 求 零 向 量 在 判定 边界 上 。 由 于 W0 
=0， 所 以 零 向 量 在 判定 边界 上 。 条 件 5 WERE: ME p 在 判定 边界 上 ， 那么 -p 也 必须 
在 判定 边界 上 。 如 果 p 在 判定 边界 上 上， 那么 
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Wp = 0 
在 该 式 两 边 同 时 乘 以 - 1， 可 得 
W(-p)-0 

所 以 判定 边界 也 满足 条 件 5. 5-17 

如 果 对 判定 边界 上 的 任意 p，ap 也 在 判定 边界 上 ， 那 么 判定 边界 将 满足 条 件 6。 和 条 件 
5 验证 一 样 ， 将 前 面 等 式 两 边 同 时 乘 以 c， 有 

W( ap) = 0 

据 此 可 知 判 定 边界 也 满足 条 件 6。 

BR, 条 件 7 到 条 件 10 对 判定 边界 而 言 也 是 满足 的 。 所 以 该 感知 机 的 判定 边界 是 一 个 
向 量 空间 。 
P5.2 WEIER ERRAR f(t) SO) Y 不 是 一 个 向 量 空间 。 

证 

这 个 集合 违反 了 向 量 空间 所 需要 的 几 个 条 件 。 比 如 ， 该 集合 不 存在 负 向 量 ， 从 而 它 不 能 满 
足 条 件 5。 同 样 ， 考 虑 条 件 6， 由 于 函数 f(t) = | :| 是 集合 了 的 一 个 元 素 , 令 a = -2， 则 有 

af(2) 2-212] =-4<0 

AE, af RERA Y 的 元 素 ， 使 条 件 6 不 能 满足 。 

P5.3 下 面 哪 一 组 向 量 是 线性 无 关 的 ? 请 找 出 每 个 集合 生成 空间 的 维 数 。 
1 1 1 
1 0 2 
1 1 1 
(ii) sint cost 2cos( t + 2/4) 

1 1 1 


(i) 




















(iii) 1 


1 


=.. 


解 
(i) 求解 这 个 问题 有 几 种 方法 。 首 先 假设 这 些 向 量 是 相关 的 ， 那么 有 
1 


0 
0 5-18 
1 0 


如 果 能 够 求 得 上 式 中 的 系数 ， 且 这 些 系数 不 全 为 0， 那 么 这 些 向 量 就 是 相关 的 。 通 过 观 
察 不 难 发 现 ，al =2，a2 = - 1，a3 = -1 能 够 使 上 式 成 立 ， 所 以 这 些 向 量 是 相关 的 。 

当 在 并" 中 有 个 向 量 时 ， 求 解 此 问题 的 另 一 种 方法 是 以 和 矩阵 的 形式 将 上 式 写 成 
1 1 1 0 
102 0 
1 1 1 0 
如 果 上 式 中 的 矩阵 存在 逆 ， 那 么 该 等 式 的 解 要 求 所 有 的 系数 都 是 零 。 在 这 种 情况 下 ， 这 


1 
2 
1 


1 
0 
1 


1 


ay + ay + 03 = 























a 


a2 




















a3 
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些 向 量 是 线性 无 关 的 。 如 果 和 矩阵 是 一 个 奇异 矩阵 (不 存在 逆 )， 那 么 必然 可 以 求 得 满足 该 等 式 
的 一 个 非 0 系数 集合 。 在 这 种 情况 下 ， 这 些 向 量 是 线性 相关 的 。 所 以 ， 可 以 以 这 些 向 量 为 列 
构造 一 个 矩阵 。 如 果 该 矩阵 的 行列 式 为 0( 奇 异 矩 阵 ) ， 那 么 这 些 向 量 就 是 相关 的 。 和 否则 ， 它 
们 是 线性 无 关 的 。 将 矩阵 的 第 一 列 用 Laplace 展开 式 [Brog91] 展 开 ， 有 











H EAT 2 cp! | I 2204220 
aaa drug i| 1*02/ ^7 ^*^**7 
所 以 这 些 向 量 是 相关 的 。 
另外 ,由 于 可 以 证 明 这 三 个 向 量 中 的 任意 两 个 向 量 都 是 线性 无 关 的 ， 所 以 由 这 三 个 向 量 
张 成 的 向 量 空 间 的 维 数 为 2。 


(di) 根据 一 些 三 角 等 式 ， 有 

cos( 1 十 =) = Saint + gest 

所 以 ， 这 些 向 量 也 是 相关 的 。 由 于 sine 和 cost 的 任何 线性 组 合 都 不 等 于 0， 所 以 这 些 向 量 所 
生成 的 空间 的 维 数 是 2。 

Gi) 这 与 (i) 题 相似 ， 只 是 向 量 个 数 比 这 些 向 量 的 原始 空间 中 向 晤 个 数 要 少 ( 只 有 叶 ' 空 
PAY 3 个 向 量 )。 在 这 种 情况 下 ， 由 这 3 个 向 量 所 构成 的 矩阵 不 再 是 一 个 方 阵 ， 所 以 不 能 
计算 其 行列 式 的 值 。 不 过 可 以 采用 称 为 Gram 的 方法 [ Brog91]， 这 种 方法 可 以 求 出 一 个 矩阵 
的 行列 式 ， 矩 阵 的 第 i 行 第 j 列 的 元 素 是 向 量 ; 和 向 量 j 的 内 积 。 这 些 向 量 是 线性 相关 的 ， 
当 且 仅 当 Gram 矩阵 的 行列 式 为 零 。 这 里 的 Gram 行列 式 为 : 

(Xi ,XI ) (xi, X9) (xi, Xs) 
G = (XX) Ox) (Xx) 


(x4,Xj) (Xa3,X) (3, X3) 

















其 中 
1 1 1 
1 0 2 
Xj; = 1 X= 1 Xi = 1 
1 1 1 
所 以 
4 3 5 
G-213 3 3 = 4)? dec»? esl 3 48- 18-30 =0 
3 7 3 7 3 3 
5.3 7 
同样 ， 也 可 以 按 如 下 方法 证 明 这 些 向 量 是 线性 相关 的 ; 


1 1 1 


0 
0 
~ 10 
0 
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男 外 ， 这 些 向 量 生 成 空间 的 维 数 一 定 小 于 3。 可 以 证 明 x, 和 x 是 线性 无 关 的 ， 因 为 


所 以 这 些 向 量 生 成 空间 的 维 数 为 2。 


P5.4 在 第 3 章 和 第 4 章 曾 经 讨论 过 单 层 感知 机 只 适用 于 识别 一 组 线性 可 分 的 模式 (参见 


图 3-3 中 的 线性 边界 )。 那 么 请 问 ， 如 果 两 个 模式 是 线性 可 分 的 ， 它 们 一 定 是 线性 无 关 的 吗 ? 


设 现 在 希望 区 分 如 下 两 个 向 量 : 


答 
^d. 这 是 两 个 没有 任何 关联 的 概念 。 比 如 ， 考 虑 如 图 5-10 所 示 的 两 输入 感知 机 。 假 


M iM 
Pi = 10.5 bris 


如 果 将 权 值 和 偏 置 值 分 别 设 定 为 wi 21, wu 21$ b= -2, 那么 其 判定 边界 如 图 5-11 
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所 示 。 显 然 ， 这 两 个 向 量 是 线性 可 分 的 。 但 是 ， 由 于 m = 3p; ， 它 们 之 间 并 不 是 线性 无 关 的 。 


输入 对 称 硬 极限 神经 元 





a = hardlims(Wp +b) 




















图 5-10 两 输入 感知 机 图 5-11 判定 边界 
P5.5 用 Gram-Schmidt 正 交 化 方法 ， 求 如 下 基 疝 量 的 正 交 集 。 
1 0 
y-7lbh5 m= ， ys =] 1 
1 0 0 
Sle: 
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532: 





0 0 
—t [2/3 -1⁄3 -1/3] o c cM 2/3 
{ 
Va = 1 ooo T 273 一 1/3 
-1 
1 [2/3 -1⁄3 -1/3]| - 1⁄3 /3 
1 - 1 
0 -1⁄3 0 
1 | -11⁄3 16 |=| 12 
0 1/6 - 1⁄2 

















P5.6 考虑 由 定义 在 区 间 [ - 1，1] 上 的 所 有 多 项 式 所 构成 的 向 量 空间 。 试 证 明 (，%) 
= | wv at 是 一 个 有 效 的 内 积 。 
证 
内 积 必须 具有 如 下 三 个 性 质 ，; 
D (2,9) =(Y,%) 
(X,Y) = Jatos cou - [soroa = (Y,-X) 
L5-22| 2) (X, agr + bY2) =al X, Y1) + (X,Y): 


(X,aYı + bY2) = [xoan + bY2(t))dt 


= af ors) an CORE + i| y COS COGI 


= aly, qi) * bC, Y2) 


3) (%,%w)z=0， 其 中 等 式 成 立 ， 当 且 仅 当 y ASHE: 


(x, x) = [xaar = foa: > 0 


当 目 仅 当 y 为 零 向 量 (在 _1<t<1 区 间 内 ，w(i) =0) 时 ， 上 面 等 式 成 立 。 

P5.7 假设 在 前 一 例题 中 所 定义 的 向 量 空间 在 区 间 [ - 1，1] 上 定义 的 多 项 式 集合 有 两 个 
向 量 1 + ， 和 1- 1。 计算 基于 这 两 个 向 量 的 一 个 正 交 向 量 集合 。 

ff 


第 1 步 : 
=Y¥,=l+t 


(94,93) -fas t)(1- t)dt = (:-5)]. - (2)-(- 4) 


Jas a = O32?! 2 (5)- o - 


-I 
(44,94) z 


所 以 


i 


(Vis Y2) 
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Va = Ya- (4,04) 1 


2b 


3 


€&20-0-$2ü«02i-3: 


P5.8 将 x=[6 9 9) 用 如 下 基 向 量 集 展开 : 





B = 
RBA: 
5/3 
zl = | 一 1/3 
- 1/3 
计算 展开 式 的 系数 : 
xi 
x5 = 
x5 - 


:最 后 展开 式 写 成 











ws [to 





wl 
— 


t [to 


w|! 
= 


C 1 


——i 
Won 0 oO MW 0 OO NA 


T —À4 


— 


T3 
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1 1 1 
X = XIV + xv + x5v4 = 4) 1 | 4 1] 2 | 4 11 3 
1 3 2. 


t FY HABE SURE RIERREN: 




















5 d tL 
3 3 3 
2o. doin 24/8 1 
x -B x= 3 3 3 9; =] 1 
1 2 1 IL9 1] 
~ 3 3 ~ 3 


请 注意 : x 和 x" 表示 的 是 同一 个 向 量 ， 但 是 它们 分 别 是 按照 不 同 的 基 集 展开 的 (如 果 不 
特别 说 明 ， 就 假定 x 采用 的 是 标准 基 集 )。 


5.5 结束语 


本 章 给 出 了 一 些 有 关 向 量 空间 的 基本 概念 和 相关 知识 ,它们 是 理解 神经 网 络 工作 原理 的 
关键 。 向 量 空间 所 涵盖 的 知识 很 多 ， 我 们 并 不 试图 涉及 它 的 各 个 方面 ， 而 只 是 给 出 一 些 和 神 
经 网 络 密切 相关 的 概念 。 这 里 讨论 的 问题 几乎 以 后 各 章 都 要 重新 提 到 。 

下 一 章 将 继续 研究 与 神经 网 络 密切 相关 的 线性 代数 的 主题 ， 那 里 将 主要 研究 线性 变换 和 
和 矩阵。 


参考 文献 


[Brog91] W. L. Brogan, Modern Control Theory, 3rd Ed., Englewood Cliffs, NJ: Prentice- 
Hall, 1991. 
这 是 一 部 关于 线性 系统 的 好 书 。 该 书 前 半 部 分 主要 讨论 线性 代数 知识 。 这 本 书 有 一 
些 讨论 求解 线性 微分 方程 组 以 及 线性 和 非 线性 系统 稳定 性 的 很 好 章节 。 另 外 ， 书 中 还 有 
许多 例题 。 
[Stra76] G. Strang, Linear Algebra and Its Applications, New York: Academic Press, 
1980. 
这 是 Strang 写 的 一 本 有 关 线 性 代数 的 优秀 基础 教材 。 本 书 中 给 出 了 许多 线性 代数 的 
应 用 实例 。 
习题 
ES.1 再 次 考虑 例题 P5.1。 证 明 ; 若 bz0， 那 么 判定 边界 不 是 一 个 向 量 空间 。 
ES.2 在 例题 P5.1 中 ， 向 量 空间 的 维 数 是 多 少 ? 
E5.3 考虑 所 有 满足 条 件 A(0) = 0 的 连续 函数 集合 。 证 明 ， 这 些 连续 函数 集合 是 一 个 向 
量 空间 。 
ES.4 证 明 : 所 有 的 2x2 算 阵 的 集合 是 一 个 向 量 空 间 。 
ES.5 在 下 列 向 量 集合 中 ， 哪 些 是 线性 无 关 的 ? 请 求 出 每 个 向 量 集合 所 生成 的 向 量 空间 
的 维 数 。( 可 用 MATLAB 中 的 函数 rank 对 (让 和 (iv) 的 管 案 进行 验证 。) 
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of 


"d 


(d) sint cost cos(21) 
(ili) 1-9: 1-t 
1 1 3 
. 0 4 
(iv) |2 0 4 
1 1 3 


ES.6 请 回顾 一 下 第 3 章 中 的 苹果 和 橘子 的 模式 识别 问题 。 试 计算 每 个 原型 模式 (苹果 
和 橘子 ) 向 量 和 测试 输入 模式 (椭圆 形 橘子 ) 向 量 之 间 的 夹 角 。 验 证 向 量 夹 角 表示 
形式 的 直观 意义 。 

1 

-1 1 

-1 -1 -1 

E5.7 用 Gram-Schmidt 正 交 化 方法 ， 应 用 下 列 基 商量 求 出 一 个 正 交 向 量 集合 。( 请 用 
MATLAB 验证 所 得 的 答案 。) 

1 


P| = (FT), Pi = 
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1 
0 0 1 
FEs,8 考 虑 区 间 [0，1] 上 的 所 有 分 段 连续 函数 所 构成 的 向 量 空间 。 图 5-12 定义 的 基 集 

if, fo fal ex e E RUPISIT SE. 

(i) 证 明 这 个 集合 是 线性 无 关 的 。 

(ii) 试用 Gram-Schmidt 方法 生成 正 交 和 集合。 内 积 的 定义 为 


fos?) = ORO 
fO fad fo 


yi = s Y= » Wy = 























图 5-12 习题 E5.8 HER 
ES.9 试 按 下 面 的 基 集 展开 x= [1 2 2]7。( 请 用 MATLAB 验证 所 得 的 答案 。) 
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E5.10 HRE | x- ay 达到 最 小 值 的 a( 采 用 上 9 上 2 Co, 2017), 证明; 对 于 a 的 
R-RE, GE zs- ay MHE Yy EX, H| x-ayl?+ | ayil? s= 
| x || 2 (33K oy Ex Ey 上 的 投影 )。 BRE x 和 2 是 二 维 向量 ， 请 画图 解释 这 
一 概念 是 如 何 与 Gram-Schmidt 正 交 化 方法 相关 的 。 


第 6 章 神经 网 络 中 的 线性 变换 


6.1 目的 


本 章 将 接着 第 5 章 继续 论述 神经 网 络 分 析 所 需要 的 数学 基础 。 第 5 章 复习 了 有 关 向 量 空 
间 的 内 容 ， 本 章 将 探讨 在 神经 网 络 中 所 采用 的 线性 变换 。 

正如 读者 在 前 面 几 章 中 所 看 到 的 ， 输 入 向 量 和 权 值 矩阵 相 乘 是 神经 网 络 执行 的 一 个 关键 
操作 。 该 操作 是 线性 变换 的 一 个 具体 实例 。 这 一 章 希 望 研究 一 般 的 线性 变换 及 其 基本 特点 。 
本 章 将 涉及 诸如 特征 值 、 特 征 向 量 和 基 变 换 等 基本 概念 ， 这 些 概念 对 读者 理解 一 些 诸如 性 能 
学 习 ( 包 括 Widrow-Hoff 规则 和 反 传 学 习 算法 ) 以 及 Hopfield 网 络 的 收敛 特性 等 神经 网 络 关键 
课题 是 十 分 重要 的 。 


6.2 理论 和 实例 


我 们 知道 ， 第 3 章 所 讨论 的 Hopfield 网 络 (如 图 6-1) 是 根据 下 式 同 步 对 网 络 的 输出 进行 


修改 的 : 
a(t +1) = satlin( Wa( t) + b) (6.1) 





a(0-p  a(t+1) = satlins(Wa(t)+b) 


图 6-1 Hopfield 网 络 


WER: 在 上 式 表示 的 迭代 过 程 中 ,每 次 迭代 操作 均 是 网 络 的 输出 和 权 值 甜 阵 W 相 乘 。 
那么 ， 这 种 重复 操作 的 有 什么 作用 呢 ? 能 否 确定 网 络 的 输出 是 最 终 收敛 到 一 个 稳 态 值 ， 还 是 
趋 于 无 穷 ， 搞 或 是 振荡 不 止 呢 ? 这 一 章 将 给 出 在 本 书 所 讨论 的 神经 网 络 中 解答 诸如 这 类 问题 
的 数学 基础 。 


6.2.1 线性 变换 


这 里 首先 从 一 些 基 本 定义 开始 论述 。 
变换 “一 个 变换 由 如 下 三 部 分 组 成 ; 
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1) 一 个 被 称 为 定义 域 的 元 素 集 合 瑟 = | ,1; 

2) 一 个 被 称 为 值 域 的 元 素 集 合 Y = igi: 

3) 一 个 将 每 个 xE X TI— T 70 v,€ Y 相 联 系 的 规则 。 

线性 变换 一 个 变换 -zy 是 线性 的 ， 如 果 

1) 对 所 有 的 o1, 056€ X, ex (pe o) = AX) + urs 

2) 对 所 有 的 «€ X füa€ R, alax) = as (x), 

假设 某 个 变换 x 是 在 二 维 空间 8? 中 将 一 个 向 量 旋转 6 角 
(如 图 6-2 所 示 )。 图 6-3 和 图 6-4 表示 该 旋转 变换 满足 线性 变 v) x 
换 定义 中 的 条 件 1， 即 如 果 希 望 将 两 个 向 量 的 和 向 量 旋 转 一 个 9 
角度 ， 可 以 首先 对 这 两 个 向 量 分 别 进行 旋转 ， 然 后 再 对 其 求 
和 。 图 6-5 表示 旋转 变换 满足 线性 变换 定义 中 的 条 件 2， 即 如 
果 希 望 将 一 个 向 量 的 伸缩 向 量 进 行 旋 转 ， 可 以 首先 旋转 该 向 





量 ， 然 后 再 对 其 伸缩 。 由 此 可 以 看 出 ， 旋 转变 换 是 一 个 线性 变 图 6-2 旋转 变换 
换 。 
Xi*X2 A(x +X2) 
Alax) - 
X2 = aA(x) ax 
Xi A(x) x 
图 6-3 两 个 向 量 之 和 的 旋转 图 6-4 两 个 向 量 旋转 后 的 和 图 6-5 伸缩 向 量 的 变换 
6.2.2 RRR 


正如 在 本 章 的 开始 所 提 到 的 ， 抑 阵 相 乘 是 线性 变换 的 一 个 实例 。 同 样 ， 可 以 证 明 两 个 有 
限 维 向 量 空间 之 间 的 任何 线性 变换 都 可 以 用 一 个 矩阵 来 表示 (这 和 上 一 章 所 阐述 的 在 有 限 维 
的 向 量 空间 中 的 任何 一 个 向 量 可 以 用 一 个 数列 来 表示 是 一 样 的 )， 为 了 说 明 这 一 点 ， 本 章 将 
用 到 上 一 章 所 给 出 的 多 数 概 念 。 

Rim, 94, 5, oj dép ERR] X B— EK. (€. Ua, o0. Un EM BSI 了 
的 一 个 基 。 即 是 对 任意 两 个 向 量 C XRICY, 8 


X= M xv; BY = > yt; (6.2) 
设 x 是 一 个 定义 域 为 X 值 域 为 Y 的 线性 变换 (sz: XY). BA 
ACX) = Y (6.3) 
可 以 写成 
E 2 su) - 2j yit i (6.4) 


因为 x 是 一 个 线性 算 子 ， 所 以 式 (6.4) 可 写成 
> ena) = 33 (6.5) 
i=l] 


j=1 
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因为 向 量 or (o; eR 了 中 的 一 个 元 素 ， 所 以 这 些 向 量 可 以 用 了 的 基 向 晤 的 线性 组 合 
形式 写成 


ACV) = Man (6.6) 
(注意 : 上 面 展 开 式 中 的 系数 4 并 不 是 随意 选取 的 。 ) 如 果 将 式 (6.6) 代 入 式 (6.5)， 可 得 
Ds au; = Mos (6.7) 
交换 式 (6.7) 中 求 和 的 顺序 ， 有 
Xa Da aj; = Di yn (6.8) 
重新 组 织 式 (6.8)， 可 得 
Ma Z Soy T =0 (6.9) 


因为 所 有 的 uvi 形成 的 是 一 个 基 集 ， 所 以 它们 必须 是 相互 独立 的 。 这 也 意味 着 式 (6.9) 
中 每 个 和 o; 相 乘 的 系数 必须 等 于 0( 参 见 式 (5.4))， 所 以 


Mos xj = yi (6.10) 
此 式 正好 是 下 面 形式 的 抢 阵 乘 ; 
aj Gi Ay X1 yı 
Q2 an an X2 y2 
: =]: (6.11) 
Gg] Qm2 U Cmn Xn Yn 


上 面 这 些 结果 表明 ; 对 于 两 个 有 限 维 向 量 空 间 之 冯 的 任意 线性 变换 都 存在 与 其 相应 的 矩 
阵 表 示 。 当 该 矩阵 和 定义 域 向 量 x 的 展 式 相 乘 ， 可 以 得 到 一 个 变换 向 量 y 的 展 式 。 
Bick: 与 一 般 向 量 的 数列 表示 形式 并 不 是 惟一 的 类 似 ( 参 见 
第 5 章 )， 一 个 变换 的 矩阵 表示 也 不 是 惟一 的 。 如 果 改 变 定 义 域 或 5 A(x) 
值 域 的 基 集 ， 那 么 变换 的 矩阵 表示 也 会 随 之 改变 。 在 后 面 各 章 将 用 / 


到 变换 的 这 -矩阵 表示 特性 。 e 
下 面 将 以 旋转 变换 为 例 ， 来 讨论 变换 的 矩阵 表示 ， 看 看 如 何 找 MTS 

到 该 变换 的 矩阵 表示 。 实 际 上 ， 其 关键 步骤 已 经 在 式 (6.6) 中 给 出 

我 们 必须 对 定义 域 中 的 每 个 基 向 量 进行 变换 ， 然 后 将 其 按照 值 域 中 a 

的 基 向 量 形式 展开 。 这 里 的 定义 域 和 值 域 相同 (X = Y = 路 2)。 为 简 图 6.6 


单 起 见 ， 对 其 采用 标准 基 v; = 0 = si( 如 图 6-6 frm). 
第 1 步 是 对 第 一 个 基 向 量 进行 变换 ， 并 且 以 基 向 量 的 形式 展开 变换 后 的 向 量 。 如 果 将 向 


fs, 逆 时 针 旋 转 一 个 角度 6， 可 得 
(s1) = cos(0)s; + sin(0)s; = Dans = 4115, + 03132 (6.12) 


如 图 6-7 Prax. n 可 以 看 到 展 式 中 的 两 个 系数 就 是 矩阵 表示 中 的 第 一 列 。 
第 2 步 是 对 第 二 个 基 向 量 进行 变换 。 如 果 将 向 量 s 逆 时 针 旋 转 一 个 角度 9， 可 得 
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2 
et (82) =- sin(0) s, 十 cos(0) s; = >» Qjy28; = CI231 + 02252 (6.13) 
i=l 


如 图 6-8 所 未。 从 展 式 中 可 以 得 到 和 抢 阵 表示 中 的 第 二 列 。 所 以 ， 完 整 的 矩阵 表示 可 以 由 下 式 
给 出 : 
cos(0)  — sin(@) 


- | sin(0) ^ cos(8) (6.14) 






AlS)  -sin(9)À $: 


cos(Q) Als) 





cos(0) 9 


sin(Q) 






$i 


图 6-7 图 6-8 


RATA ATRIER (6. 14) ABPESURIP X. MRE I8] BORHAABPEIRAE, RAs 
将 会 被 旋转 一 个 角度 0. 

总 起 来 说 ， 可 以 利用 式 (6.6) 得 到 一 个 变换 的 矩阵 表示 形式 。 首 先 需要 对 定义 域 中 的 每 
个 基 向 量 进行 变换 ， 然 后 以 值 域 的 基 向 量 形 式 对 变换 后 的 向 量 进行 展开 ， 由 每 个 展 式 的 系数 
就 可 以 得 到 变换 矩阵 中 的 一 列 。 
为 了 以 图 形 方式 研究 上 述 生 成 矩阵 表示 的 过 程 ， 请 运行 Neural Network Design 
Demonstration Linear Transformations( nnd6lt) 。 





6.2.3 EFK 


前 一 节 我 们 注意 到 一 个 线性 变换 的 矩阵 表示 并 不 是 惟一 的 。 和 矩阵 的 表示 依赖 于 变换 的 定 
义 域 和 值 域 所 采用 的 基 集 。 在 这 一 节 ， 将 说 明 变换 的 矩阵 表示 是 如 何 随 基 集 改变 而 改变 的 。 

考虑 一 个 线性 变换 4: X— Y. Hin, n, 0, % BABS X 的 一 个 基 ， 
[Ui 93, cn, Un AARSE Y 的 一 个 基 。 所 以 ， 任 何 向 量 ov € X 均 可 以 写成 


X= È xj, «. (6.15) 

而 任何 向 量 YE Y 可 以 写成 
y = x yit; (6.16) 

所 以 ， 如 果 7 
ACK) = Y (6.17) 


那么 ， 变 换 26 的 矩阵 表示 形式 是 
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CI 8n Gin x1 y1 
a2 a2 Aln x2 y2 
: = : (6.18) 
aml Qm2 “ ann Xn Ym 
或 
Ax = y (6.19) 


MEBER X AY 使 用 不 同 的 基 集 。 设 |，it。，…， 太 | 是 的 新 基 集 ，| wi，w,， 
c Wn dé Y 的 新 基 集 。 那 么 , 向量 9E 针 可 以 写成 


X= EST (6.20) 
i= i 
向 量 YE 了 可 以 写成 
y = yw (6.21) 
这 将 得 到 如 下 新 的 矩阵 表示 : 
aiu 29212 a'in X1 yi 
@ 21 a 22 an t: - r2 (6.22) 
Q m1 a m2 Q mn X Yn 
或 
A'(x') = y (6.23) 


那么 ，A 和 A' 之 间 的 关系 是 什么 呢 ? 要 解答 这 个 问题 ， 必 须 找 出 两 个 枯 集 之 间 的 关系 。 
首先 ， 由 于 每 个 BX 的 一 个 元 素 ， 那 么 可 以 按照 X 原先 基 集 的 形式 展开 ; 


1; = > tj V^ (6.24) 
其 次 ， 因 为 每 个 w, 是 了 的 一 个 元 素 ， 所 以 也 可 以 按照 Y 原先 基 集 的 形式 展开 : 
wi = X w Ut; (6.25) 
所 以 ， 基 向量 可 以 写 为 如 下 的 列 向 量 表示 形式 ; 
bij Wii 
tzi Wi 
t; - : Wi = : (6.26) 
tni Wmi 
定义 一 个 列 为 的 矩阵 ; 
B,-[t t | tl (6.27) 
现在 可 以 按照 矩阵 的 形式 将 式 (6.20) 写 为 ; 
x= x' iti t x'ot; tU x' at, - B,x (6.28) 


这 个 等 式 说 明了 向 量 ov 的 两 种 不 同 表示 之 间 的 关系 。 
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现在 ， 定 义 一 个 列 为 w, 的 矩阵 ; 


B, = [w wW … wj (6.29) 
据 此 ， 也 可 以 按照 矩阵 的 形式 将 式 (6.21) 写 成 
y= By (6.30) 


这 个 等 式 说 明了 向 量 Y 的 两 种 不 同 表示 之 间 的 关系 。 
现在 将 式 (6.28) 和 式 (6.30) 代 入 式 (6.19)， 可 得 


AB,X = B,y (6.31) 
如 果 我 们 用 Bz! EDASX(6.31) HAW, A 
[B,AB,]x = y (6.32) 
基 变换 ”比较 式 (6.32) 和 式 (6.23) 可 以 得 到 如 下 基 变 换 的 操作 ; 
A’ = [B,!AB,] (6.33) 


相似 变换 “这 个 重要 结果 描述 了 一 个 给 定 线性 变换 的 任何 两 个 矩阵 表示 之 间 的 关系 ， 该 
变换 称 为 相似 变换 ( similarity transform) [ Brog91 ]。 此 式 在 以 下 各 章 中 十 
分 有 用 。 如 果 选 择 比较 合适 的 基 向 量 ， 那 么 就 可 以 获得 一 个 充分 反映 
线性 变换 特点 的 矩阵 表示 。 这 个 问题 将 在 下 一 节 讨 论 。 e 

作为 一 个 基 集 变换 的 实例 ， 让 我 们 重新 看 看 上 节 所 给 出 的 向 量 旋 
转 实例 。 在 该 实例 中 ， 利 用 标准 的 基 和 集 |;|，ss1 得 到 了 一 个 矩阵 表示 。 
现在 利用 基 |, ，:s| 找 到 一 个 新 的 矩阵 表示 (如 图 6-9 所 示 )。 注 意 ; 在 
该 实例 中 ， 定 义 域 和 值 域 采 用 的 是 同一 个 基 集 。 

第 一 步 是 根据 式 (6.24) 和 式 (6.25)， 按 照 标准 基 集 的 形式 对 和 ”图 69 基 变 换 实例 
t; 进行 展开 。 观 察 图 6-9 可 知 : 





ij = 51 + 0.55 (6.34) 
02-384 + 82 (6,35) 
所 以 ， 可 以 将 c 和 tp 写成 
1 -1 
n = || e=] 1 | (6.36) 
MÆ, RIVAESUXREE 
1 -1 
B, = [t,t] = los 1 | (6.37) 
同时 ， 由 于 这 里 对 变换 的 定义 域 和 值 域 都 是 采用 相同 的 基 集 ， 所 以 
1 -1 
B, = B, = lo; 1 | (6.38) 


现在 ， 可 以 根据 式 (6.33) 计 算 新 的 和 矩阵 表示 : 
2/3 2⁄3 | | cosh - Md | 1 -1 | 
-1/3 2/3 0.5 1 


| 1/3sin@ + cos0 — 4/3sin8 | 


LN -1 ` 
A’ = [B,'AB,] = | sinô  cos0 


(6.39) 


S/6sinO - 1/3sinO + cos8 
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作为 特例 ， 不 妨 选取 6= 30"， 于 是 有 


n [3-033 - 0-667] (6.4 
"10.417 0.699 Am 
和 
] [0.566 - o5] (6.41) 
1 0.5 0.866 i 
为 了 检验 这 些 矩 阵 是 否 正确 ， 假 设 和 x = | ‘| 相对 应 的 测试 向 量 是 : 
x= | l | (6.42) 


0.5 
GER: x 和 x 表示 的 向 量 是 第 二 个 基 集 中 的 一 个 元 素 i 。) 那 么 ， 变 换 后 的 测试 向 量 是 


0.866 -0.5][ 1 0.616 
eMe elle) BSS] om 
0.5 0.866)10.5 0.933 
该 向 量 应 该 和 如 下 向 量 相对 应 : 
,A -| | | E oos] (6.44) 
yee" *to.416 0.69 Ilo} ~ 10.416 





那么 ， 如 何 确 定 y Hy 的确 是 相对 应 呢 ? 它们 是 以 不 同 基 集 的 形式 来 表示 同一 个 向 量 
YY，y 采 用 的 基 是 1s1，ss}，y 采 用 的 基 是 11 ，to1。 在 第 5 章 中 ,利用 互 逆 的 基 向 量 将 一 个 
变换 转换 成 男 一 个 变换 (请 见 式 (5.43))。 利 用 此 概念 ， 可 得 

By |, -17 Tees] 
yee Y7|os 1 0.933 
] | 2/3 2⁄3 [ose] - [12 | 
^ i-1/3 2/3110.933! 10.416 
此 式 正 好 验证 了 前 面 的 结果 。 这 些 向 量 表 示 在 图 6-10 中 。 从 图 中 
可 以 看 出 ， 由 式 (6.43) 和 式 (6.44) 得 到 y 和 YY 两 种 表示 形式 是 合 图 6-10 
理 的 。 
6.2.4 特征 值 和 特征 向 量 

本 节 将 对 线性 变换 的 特征 值 和 特征 向 量 这 两 个 关键 性 质 进行 讨论 。 这 些 性 质 的 知识 将 使 

我 们 能 回答 有 关 神 经 网 络 性 能 的 一 些 关 键 问题 ， 比 如 在 本 章 开 始 所 提 到 的 Hopfield 网 络 的 稳 


定性 。 

特征 值 ”特征 向 量 ”这 里 首先 给 出 特征 值 和 特征 向 量 的 定义 。 考 虑 一 个 线性 变换 : <: 
YX- 和 (定义 域 和 值 域 相 同 ) 。 分 别称 满足 下 式 的 那些 不 等 于 0 的 向 量 z € X 和 标量 分别 是 
特征 向 量 和 特征 值 ; 





Al) = 入 了 (6.46) 
请 注意 ， 特 征 向 量 的 表示 问题 ， 因 为 如 果 满足 式 (6.46)， 那 么 az 同样 也 满足 该 式 ， 由 此 
可 知 ， 特 征 向 量 实际 上 并 不 是 一 个 真正 的 向 量 ， 而 是 一 个 向 量 空 间 。 
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所 以 ， 给 定 变换 的 一 个 特征 向 量 表示 一 个 方向 ， 当 对 任何 取 
该 方向 的 向 量 进行 变换 时 ， 它 们 都 将 继续 指向 相同 的 方向 ,仅仅 是 。 AG) 
按照 特征 值 对 向 量 的 长 度 进行 缩放 。 举 例 来 说 ， 再 次 考虑 前 几 节 中 U 
提 到 的 旋转 实例 (如 图 6-11 所 示 )。 现 在 要 问 : 是 不 是 任何 向 量 被 6 
旋转 30° 之 后 ， 它 们 还 是 指向 相同 的 方向 ?显然 不 是 ， 这 是 因为 变 x 
换 没有 实数 特征 值 的 情况 。 在 后 面 将 会 看 到 ， 如 果 人 允许 复 数 形 式 的 
特征 值 ， 那 么 该 变换 存在 两 个 特征 值 。 5, 

那么 ， 又 如 何 计算 特征 值 和 特征 向 量 呢 ?假设 现在 选择 了 n 


维 向 量 空间 X 的 一 个 基 ， 那 么 式 (6.46) 的 矩阵 表示 可 以 写成 men 向 量 施 转 实例 


Az =z (6.47) 
或 
[A - AI]z = 0 (6.48) 
这 表示 [A - AL MAIS REAM), BET AT A 0: 
I[A - A]] 2 0 (6.49) 


这 个 行列 式 是 一 个 n 阶 多 项 式 ， 所 以 式 (6.49) 通 常 有 个 根 ， 其 中 一 些 根 可 能 是 复数 ， 


也 可 能 有 些 根 是 重复 的 。 
现在 ， 重 新 看 看 前 面 的 旋转 实例 。 如 果 采 用 标准 基 集 ,那么 变换 的 矩阵 是 





_ | - sinÜ (6.50) 
sinô  cosÓ 
可 以 将 式 (6.49) 写 成 
| — sinO | -0 (6.51) 
sing cosÜü — À 
或 
A — 2Acos0 + ((cos0)? + (sin0)?) = A? — 2dcos8 + 1 = O (6.52) 
该 等 式 的 根 是 
A, = cos + jsin0,A; = cosb - jsinb (6.53) 


所 以 ， 正 如 前 面 所 预计 的 ， 该 变换 没有 实数 形式 的 特征 值 (如 果 singz#0)。 这 也 说 明 ， 
如 果 任 何 实 向 量 被 变换 之 后 ， 它 将 指向 一 个 新 的 方向 。 
考虑 另外 一 个 矩阵 : 


A = [7 Dod | (6.54) 


0 -2 
为 了 找到 其 特征 值 ， 必 须 求解 
UV l || -。 (6.55) 
0 -2- 入 
或 
44332422 (41) +2) 20 (6.56) 


求解 式 (6.56) ， 得 到 特征 值 
à 2-1, à2-2 (6.57) 
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为 了 找到 其 特征 向 量 ， 必 须 对 式 (6.48) 求 解 ， 这 里 就 是 求解 


[0 aana da= lo] 
0 2.23 Zz = 0 (6.58) 


分 别 用 Ay 和 Xz 对 该 式 进行 两 次 求解 。 首 先 将 Xi 代 人 式 (6.58) 可 得 


k Als -| NI - [o] (6.59) 


或 
£a = 0, 对 24 没有 任何 限制 (6.60) 
所 以 第 一 个 特征 向 量 是 
-| ,| (6.61) 
Z = 0 .6 
或 者 是 该 向 量 的 任意 标量 倍 。 将 S 代 人 式 (6.$8)， 可 得 
1 1 1 11| Zz 0 
F j^ = li izel- [9 (6.62) 
或 
Zn =- £y (6.63) 
所 以 第 二 个 特征 向 量 是 
到 = L4] (6.64) 
或 者 是 该 向 量 任意 的 标量 倍数 。 
下 面 两 式 验证 了 上 述 结果 的 正确 性 : 
-1 1 ][1 -1 1 
an =| Hil «Il = cole] 5 (6.65) 
-1 1 1 -2 1 
Anc|[g NAE] e» A] nm (6.66) 


为 了 测验 一 下 对 特征 向 量 的 理解 ， 可 以 运行 Neural Network Design Demonstra- 
tion Eigenvector Game (mnd6eg)。 





对 角 化 

如 果 某 个 变换 有 n 个 不 同 的 特征 值 ， 则 可 以 保证 得 到 该 变换 n 个 线性 无 关 的 特征 向 量 
[Brog91]。 因 此 特征 向 量 组 成 变换 的 向 量 空间 的 一 个 基 集 。 现 在 用 特征 向 量 作为 基 向 量 来 求 
出 前 面 变换 ( 式 (6.54) ) 的 矩阵 。 从 式 (6.33) 可 得 


xm 


对 角 化 ”注意 ， 这 是 一 个 对 角 和 矩阵， 特征 值 处 于 对 角 线 上 。 实 际 上 ， 这 并 不 是 一 个 巧 
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A. 一 旦 变换 有 不 同 的 特征 值 ， 那 么 就 能 通过 将 特征 向 量 作 为 基 向 量 的 方法 将 该 变换 的 矩阵 
表示 对 角 化 。 可 以 将 这 种 对 角 化 过 程 总 结 如 下 : 


设 . 
6-13) B = [z m  z] (6.68) 
Hiz, mo, zni 是 一 个 矩阵 A 的 特征 向 量 。 然 后 求 
A 0 = 0 
0 X … 0 
[B-'AB] =]. . . (6.69) 
0 0 An 


FUP iy, Qo, orn, Al EERE A 的 特征 值 。 
6-14 | 这 个 结果 对 后 面 各 章 分 析 若 干 神经 网 络 的 性 能 是 十 分 有 用 的 。 


6.3 小 结 


变换 

一 个 变换 由 如 下 三 部 分 组 成 

1) 一 个 被 称 为 定义 域 的 元 素 集合 X= mls 

2) 一 个 被 称 为 值 域 的 元 素 集合 了 = | ij ; 

3) 一 个 将 每 个 元 素 VE X 映射 到 元 素 nE Y 的 规则 。 
线性 变换 

一 个 变换 of 是 线性 的 ， 如 果 : 


1) 对 所 有 的 o MEX, ex + 02) = et (0) + (2); 
2) 对 所 有 的 we X Mae R, Alax) = ax (2). 


和 矩阵 表示 


HIN, 4, o, dele] ES IR] X BU— 4E, (a. 03. U, US 了 的 
一 个 基 。<-z 是 一 个 定义 域 为 大 和 值 域 为 了 的 线性 变换 : 
ACX) = Y 
那么 变换 的 矩阵 表示 中 的 系数 可 以 由 下 式 获 得 ， 


eo) - X aiit 
基 变 换 
B,=[t t ' t] 


B, - iw, w Ut Wa] 
615. A’ = [B,AB,] 
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特征 值 和 特征 向 量 
Az = Az 
l[A- Al] =0 


对 角 化 
B = [z 到 Zn ] 


HP ig, to, 1, 212 —-TAB A 的 特征 向 量 。 
f 入 0 … 0 


(B^! AB] = 


6.4 例题 
P6.1 考虑 图 6-12 中 具有 线性 传输 函数 的 单 层 网 络 ， 请 问 从 输入 向 量 到 输出 向 量 之 间 的 
变换 是 线性 变换 吗 ? 





a = purelin(Wp 4 b) 


图 6-12 单个 神经 元 感知 机 


解 
网 络 的 映射 公式 是 
a= Alp) = Wp+b 

为 了 使 这 个 变换 是 线性 的 ， 它 必须 满足 : 

1) &(p, + pj) 2 —4(p,) + #(p,); 

2) (ap) = a4 p)c 

首先 测试 上 面 的 第 一 个 条 件 。 

2p, + pj) = W(p, + pj) + b = Wp, + Wp, +b 
将 其 和 
A(p,) +-(p) = Wp, + b + Wp, + b = Wp, + Wp, + 2b 

比较 。 显 然 ， 仅 当 b= 0 时 ， 上 述 两 个 表达 式 相 等 。 所 以 ， 尽 管 该 网 络 具 有 一 个 线性 传输 函 
数 ， 但 是 它 执行 的 是 一 个 非 线 性 变换 。 我 们 称 这 种 特殊 类 型 的 非 线 性 变换 为 仿 射 变换 。 
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P6.2 在 第 SHWCURY, RVE—-TREERE? 


解 
向 量 o 到 向 量 2 上 的 投影 定义 为 
Y = AX) = XL 


Hop, (9,0) 8 x iv WAR. 
现在 需要 检查 一 下 这 个 变换 是 否 满 足 线性 特性 的 两 个 条 件 。 首 先 检查 条 件 D. 


(Xit 95,9) O Co, 9) e (2,9). (xs 9) Co, v) 
(vy) = (7,7) = (0,0) * (m.m) © 


= A(X) + AX) 
(这 里 使 用 了 内 积 的 线性 特性 。 2): 
ax, v) al X, V) 


Y = Alax) = G v) * (w,w) 
由 此 可 以 看 出 ， 投 影 是 一 个 线性 操作 。 
P6.3 SBR? 中 将 向 量 or 相对 于 直线 x; + x; = 0 进行 反射 操作 的 变换 x (如 图 6-13 所 
AR). PRB? 中 标准 基 集 相关 的 该 变换 的 矩阵 。 





ex + Hy) = 


Y = ae) 


Sy 


x 
5i 
AW 
图 6-13 ”反射 变换 
解 
[6-18 | 求 一 个 变换 的 抢 阵 的 关键 已 经 在 式 (6.6) 中 给 出 ; 
ACY) = Daye: 


这 里 需要 对 定义 域 中 的 每 个 基 向 量 进行 变换 ， 然后 按照 值 域 的 基 应 量 形 式 对 每 个 变换 结 
果 进 行 展开 ， 每 次 展开 得 到 矩阵 表示 中 的 一 列 。 这 里 ， 定 义 域 和 值 域 的 基 集 都 是 is ，szj。 
所 以 首先 对 si 进行 变换 。 如 果 依据 直线 x1 x2 = 0 反射 si( 如 图 6-14(a) 所 示 )， 可 得 


etsi) =- S525 Saas = 41181 + 42132 = Os; + (- 1) 52 
此 式 给 出 矩阵 的 第 一 列 。 下 面 对 s; 进行 变换 (如 图 6-14(b) 所 示 ) ， 可 得 


et (sa) =- 31 = È aas = = 44281] + 42252 5 (- Ds, + 05; 


ERA Ag ER — FI 最 后 的 结果 是 
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Als) = -5 





(a) 对 部 进行 的 变换 (b) 对 有 进行 的 变换 


图 6-14 反射 操作 
下 面 通过 对 向 量 x=[1 1]7 进行 变换 来 验证 上 述 结果 : 


NENNEN 

Ax = = 

-1 0 1 -1 

这 实际 上 是 依据 直线 xi 十 x2 =0 对 向 量 x 进 行 反射 (如 图 6-15 所 示 )。 


A(x) 


图 6-15 对 反射 操作 的 验证 


(你 能 够 猜测 出 该 变换 的 特征 值 和 特征 向 量 吗 ? 请 使 用 Neural Network Design Demon- 
stration (神经 网 络 设计 演示 ) 中 的 Linear Transformations(nn6lt) 以 图 形 的 方式 研究 一 下 。 请 
利用 MATLAB 的 eig 函数 计算 该 特征 值 和 特征 向 量 ， 然 后 检验 一 下 你 的 猜测 结果 是 否 正 


确 .) 


P6.4 设 复 数 向 量 空间 X WAEL + j，1 ~ |， 变换 o6: XLX R— T ET CHI or 


(uy) =X"). 
(i) 求 变换 a 相对 于 上 述 基 集 的 矩阵 表示 ; 
(ii) 求 该 变换 的 特征 值 和 特征 向 量 ; 
( 道 ) 当 将 特征 向 量 作为 基 向 量 时 ， 求 + 相对 于 该 基 向 量 的 矩阵 表示 。 
解 


(i) 为 了 求 该 变换 的 和 矩 阵 ， 对 每 个 基 向 量 进行 变换 ， 也 即 求 每 个 基 向 量 的 共 辊 : 


ACY) = A(1 Jj) =l-j=%= aui + ayut = OY + 195 
eq) = xl- j) zlejz27;z-2 an% + ann = 194 + OV 
从 上 面 两 式 可 得 变换 的 矩阵 表示 
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o 
A = 
1 0 
Cii) 为 了 求 特征 值 ， 需 要 用 式 (6.49): 
-àa 1] ， 
ta- = [5 [e812 G-na+n <0 


所 以 特征 值 是 4 =1，2 = - 1。 为 了 求 特征 向 量 ， 用 式 (6.48): 


a Se 


620， 当 )=)=1 时 ， 有 


或 


Zu = Za 


|] 


或 是 该 向 量 的 任意 倍数 。 对 第 二 个 特征 向 量 而 言 ， 用 1 = 12= - 1， 可 得 : 


[ss zer 


所 以 第 一 个 特征 向 量 是 


或 


所 以 第 二 个 特征 向 量 是 


或 是 该 向 量 的 任意 倍数 。 
注意 ; 虽然 前 面 这 些 特 征 向 量 是 用 一 列 数 来 表示 ， 但 实际 上 它们 都 是 复数 ， 比 如 : 
Z,)=1%4+1% = (14+j)+C-7) «2 
2, =1%,4+(-1)%= (1«j) - (10-5) = 2j 
检查 这 两 个 数 ， 它 们 确实 是 特征 向 量 : 
A(Z,) = (2) = 2 = NZ 
A(22) = Qj)! 2- 2j = £i 
(iti) 为 对 基 集 进行 变换 ， 需 要 用 式 (6.33) : 
(621; A’ = [B,!AB,] = [B-'AB] 


B-[a al-|， | 


BOR SENA PHAM ER 93 
(定义 域 和 值 域 用 的 是 同一 个 基 集 。) 所 以 有 
<- 
-0.5 1 -1 lo -11 “Jo a, 
正如 式 (6.69) 所 预计 的 ， 这 里 将 变换 的 矩阵 表示 对 角 化 了 。 
P6.5 请 对 角 化 下 面 的 矩阵 ; 


解 

第 一 步 是 求 矩 阵 的 特征 值 ; 

| 一 2 
-1 3-A 

所 以 ,特征 值 是 X41 = 1，4, = 4。 再 求 特 征 向 量 ; 


^w [5 she [t 


| [A -XI]| = =X -54«42 (A-1)0-4) 20 








3 -入 0 
X =à =l}, 有 
1 -2 1 -2]) Zn 0 
l^ 2 |^ -| 7 2 2 -[2] 
z £j = 275 
所 以 第 一 个 特征 向 量 是 
Z = [| 6-22 
或 是 该 向 量 的 任意 倍数 。 
MA-aAQ.-ARB, d 
-2 -2 -2 -2||Zn 0 
M “ile -| 3e - [5] 
或 
Zn =- 2x 
所 以 第 二 个 特征 向 量 是 
1 
n = [ 
或 该 向 量 的 任意 倍数 。 
为 了 对 角 化 该 和 矩阵， 我 们 用 式 (6.69): 
A’ = [BAB] 
其 中 


B= [a m)- P iu 
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y -| 173 | 2 n 1 | -| °] Jà 0 
-113 -2ali-1 3 1 -1} 104] |0 X 
P6.6 假设 变换 4: RRN 相对 于 标准 基 集 的 矩阵 表示 为 
3 "M 





所 以 有 


«| 


0 0 1 
6-23) 求 该 变换 相对 于 如 下 基 集 的 矩阵 
2 0 | | 0 
relel spen HAT 
1710 3 7 











解 
第 一 步 是 构造 如 下 两 个 矩阵 ， 


2 0 0 
1 0 
B,=|0 -1 -2|1,B。 = 





0 -2 
1 0 3 
现在 ， 利 用 式 (6.33) 形 成 新 的 矩阵 表示 ; 
A’ = [B;!AB,] 
V 1 ° [? 4d 中 ? 5l- 5 1 A 
0 -7 0 0 1 1 0 3 -7 0 -5 








所 以 上 面 矩阵 就 是 该 变换 相对 于 基 集 T AW 的 矩阵 表示 。 
P6.7 假设 变换 7; RR o R 的 一 个 基 是 V= |v, nlo 
( i)〉 当 给 定 如 下 等 式 时 ， 求 变换 zx NFER V 的 矩阵 表示 ; 
ALV) = V 4 205 
AMY) = V+ 05 
(ii) 假设 有 一 个 新 的 基 集 W - | or ，aj。 当 给 定 如 下 等 式 时 ， 求 变换 x 相对 于 基 
fW 的 矩阵 表示 : 


WI = V1 + Vo 
Ta = Vi- Vy 


解 
[6-24 | Ci) 如 同 在 式 (6.6) 中 所 定义 的 ， 两 个 等 式 分 别 给 出 了 矩阵 的 两 列 。 因 此 所 求 的 矩阵 是 


i: id 

A = 

2 1 

(i) 可 以 按照 V 的 基 向 量 的 形式 将 W 的 基 向 量 表示 为 


«d. L4] 


现在 就 可 以 构造 出 用 来 进行 相似 变换 的 基 振 阵 : 
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B, 


然后 可 以 从 式 (6.33) 得 到 如 下 新 的 矩阵 表示 形式 ; 
A’ = [B;'AB,, ] 
Y - [2 1/2 || 1 1 I 1 | E | 5/2 1/2 | 
1/2 -MV21i12 1111 -1 -1⁄2 -1/2 
P6.8 假设 所 有 阶 数 小 于 等 于 2 的 多 项 式 的 向 量 空间 为 PP ， 该 向 量 空 间 的 一 个 基 是 Y = 
il, t, PI, 0 是 一 个 微分 变换 。 
(i) 求 这 个 变换 相对 于 基 集 的 矩阵 表示 ; 
(ii) 求 变换 的 特征 值 和 特征 向 量 。 
解 
(i) 第 一 步 是 对 每 个 基 向 量 进行 变换 ; 
2(0 = 0 = (0)1 + (0)# + (0) 2? 
a(t) = 1 = (1)1+ (0)t + (0) 2? 




















a(t?) = 21 = (0)1 + (2)t+ (O22? 6-25 
变换 的 矩阵 是 
0 1 0 
-| 0 | 
0 0 0 
(ii) 为 了 求 特 征 值 ， 必 须 求解 
-À 1 0 
I[D - AD = 0 -A 2 =-'=0 
0 0 -和 
所 以 所 有 三 个 特征 值 都 是 0。 为 了 求 特征 向 量 , 需要 求解 
-à 1 0 0 
[D - Az = 0 一 入 2 ZH 
0 0 -和 0 
对 于 X=0 有 
0 10/| £i 0 
ERES 
0 0 ollz 0 
这 意味 着 
2,223420 


所 以 ， 只 能 得 到 一 个 特征 向 量 ; 


6-26 | 
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由 此 可 以 看 出 ， 仅 当 多 项 式 的 导数 是 其 自身 的 缩放 形式 时 ， 多 项 式 是 一 个 常数 (0 阶 多 
项 式 )。 

P6.9 设 有 一 个 变换 4: RIR El 616 给 出 了 该 变换 的 两 个 实例 。 求 变换 相对 于 标 
准 基 集 的 矩阵 表示 。 





图 6-16 例题 P6.9 的 变换 


解 
对 于 这 个 问题 而 言 ， 因 为 并 不 知道 基 向 量 是 如 何 被 变换 的 ， 所 以 不 能 用 式 (6.6) 求 解 变 
换 的 矩阵 表示 。 但 是 ， 知 道 如 何 对 图 中 的 两 个 向 量 进 行 变换 ， 也 知道 如 何 按照 标准 基 集 的 形 
式 来 表示 这 两 个 向 量 。 根 据 图 6-16， 可 以 写 出 如 下 等 式 : 
-2 
= | 1 | 


HEISE 
A - , A 
2 0 1 
将 上 面 两 个 等 式 合并 在 一 起 : 
| 4] I IM 
A - 
2 1 0 -1 
所 以 
a- i SER "i 1/4 ^B B^ 
“Lo -11]J12 1 "lo -1jJl-12 12) 112 -1⁄2 


这 就 是 变换 相对 于 标准 基 集 的 矩阵 表示 。 
在 Neural Network Design Demonstration 中 的 Linear Transformations(nnd61t) 用 到 了 这 


个 过 程 。 
6.5 ”结束语 


这 一 章 复习 了 线性 变换 及 其 矩阵 的 一 些 性 质 ， 这 些 内 容 对 学 习 神经 网 络 至 关 重要 。 特 征 
值 、 特 征 向 量 、 基 变换 (相似 变换 ) 和 对 角 化 等 概念 在 后 面 各 章 还 会 被 经 常用 到 。 如 果 没 有 这 
些 线性 代数 的 背景 知识 ， 那 么 读者 只 能 肤浅 地 学 习 神 经 网 络 。 

下 一 章 将 应 用 这 些 线性 代数 知识 来 分 析 第 一 个 神经 网 络 训练 算法 的 探 作 
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例 。 
习题 


E6.1 
E6.2 


矩阵 的 转 置 操作 是 一 个 线性 变换 吗 ? 





参考 图 6-12 中 所 示 的 神经 网 络 模型 。 请 说 A) 

8j. 如 果 基 向 量 口 等 于 0， 那么 神经 网 络 完 pt 
成 的 是 一 个 线性 操作 。 

考虑 图 6-17 中 的 线性 变换 。 $ 

Ci) 求 这 个 变换 相对 于 标准 基 集 的 矩阵 表 aw) 


JR; 
(ii) 求 该 变换 相对 于 基 集 | M4, 11h 图 6-17 习题 E6.3 的 变换 实例 

阵 表示 。 
设 复数 空间 为 一 个 向 量 空间 X，X 的 基 是 11+j，1 -ji 计 。-”: XX É— 7T 3RC1 + 
门 的 操作 ( 即 2600) = (1+ 290. 
Ci) REK > 相对 于 上 面 所 给 的 基 集 的 矩阵 表示 ; 
(ii) 求 变换 的 特征 值 和 特征 向 量 ; 
(iii) 将 特征 向 量 作为 基 向 量 ， 求 变换 -x 相应 的 矩阵 表示 ; 
(iv) FH MATLAB 验证 (ii) 和 (i)。 
假设 有 一 个 从 二 次 多 项 式 空 间 到 三 次 多 项 式 空间 的 变换 : of, P^ P. Hog 
F: 

X = ao t+ aıt + azt? 


ACX) = alt +1) + a,(¢ 1) + ast +1) 


求 这 个 变换 相对 于 基 集 Vat, rn, CIM V» 11, c, C, ORR. 


E6.7 


E6.8 


考虑 osin(t + 中 ) 形 式 的 函数 的 空间 。 这 个 空间 的 一 个 基 集 是 Y = dsint, cost] o XX 

D 是 一 个 微分 变换 。 

(i) REK 和 相对 于 基 集 V 的 矩阵 表示 ; 

(ii) 求 变换 的 特征 值 和 特征 向 量 。 请 按照 数列 的 形式 和 + 的 函数 形式 表示 特征 
向 量 。 

(iii) 将 特征 向 量 作为 基 向 量 ， 求 变换 相应 的 矩阵 表示 。 

设 PU P3 分 别 是 二 次 和 三 次 多 项 式 的 向 量 空间 。 求 积分 变换 I PP 相对 

于 基 集 Vail, p, CIM V=11, t, t, CLARA, 

设 某 个 线性 变换 A: RR 相对 于 标准 基 集 有 如 下 矩阵 表示 形式 : 


6-29 


6-30 
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12 
s=[5 4] 
求 这 个 变换 相对 于 如 下 新 基 集 的 矩阵 表示 。 


mace 


6-31 | E6.9 假设 我 们 知道 某 个 线性 变换 A: 0 90 有 如 下 特征 值 和 特征 向 量 : 
1 1 
A, =l, a[i: à = 2, n =| | 


2 
GEE: 这 里 是 相对 于 标准 基 集 来 表示 特征 向 量 的 。) 

Ci) RER 4 相对 于 标准 基 集 的 矩阵 表示 ; 

(ii) 求 变换 相对 于 如 下 新 基 集 的 矩阵 表示 : 


HERS) 
TIRABA) 


(注意 ; 这 里 是 相对 于 标准 基 集 来 表示 基 向 量 的 。) 
Ci) 求 这 个 基 集 的 互 逆 基 向 量 。 
(ii) 设 变换 4: RR 相对 于 路 * 中 的 标准 基 集 的 矩阵 表示 为 


^«^ 4l 


请 按照 基 集 V 的 形式 ， 求 Avi 的 展 式 。( 采 用 互 逆 基 向 量 .) 
(iii) 按照 基 集 V 的 形式 ， 求 Av, 的 展 式 。 
[6:32 (iv) RER ->y 相对 于 基 集 V 的 矩阵 表示 形式 。( 这 一 步 应 无 需 更 多 的 计算 。) 


E6.10 ig? 的 基 集 为 


第 7 章 有 监督 的 Hebb 学 习 


7.1 目的 


Hebb 规则 是 最 早 的 神经 网 络 学 习 规则 之 一 ， 由 Donald Hebb 在 1949 年 作为 大 脑 的 一 种 
神经 元 突 触 调整 的 可 能 机 制 而 提出 ， 从 那 以 后 Hebb 规则 就 一 直 用 于 人 工 神经 网 络 的 训练 。 

本 章 将 运用 前 两 章 提出 的 线性 代数 的 概念 阐述 Hebb 学 习 的 工作 原理 ， 并 说 明 如 何 把 
Hebb 规则 用 于 训练 人 工 神经 网 络 。 


7.2 理论 和 实例 


上 世纪 初 ，Donald O.Hebb HÆ F Nova Scotia 的 Chester。 他 原 想 做 一 名 小 说 家 ， 并 于 
1925 年 在 Halifax 的 Dalhousie 大 学 获得 英语 学 位 。 考 虑 到 作为 一 名 一 流 小 说 家 必须 对 人 类 本 
质 有 深刻 的 认识 ， 毕 业 后 的 Hebb 开始 研究 弗 洛 伊 德 ， 并 对 心理 学 产生 了 浓厚 兴趣 。 后 来 ， 
他 到 McGill 大 学 攻读 心理 学 硕士 学 位 ， 并 完成 了 关于 巴 甫 洛 夫 条 件 反 射 理论 的 学 位 论文 。 
1936 年 ， 他 获得 哈佛 大 学 的 博士 学 位 ， 他 的 学 位 论文 研究 了 对 老鼠 视觉 的 早期 实验 的 效果 。 
后 来 ， 他 加 入 蒙特 利 尔 神经 学 院 ， 研 究 脑 外 科 手 术 后 病人 智能 变化 的 程度 。1942 年 ，Hebb 
转 到 设 在 佛罗里达 研究 灵 长 类 动物 的 Yerkes 实验 室 ， 在 那儿 ， 他 从 事 对 非洲 黑猩猩 行为 的 
研究 。 

1949 年 ，Hebb YER The Organization of Behavior) 一 书 [Hebb49] 中 总 结 了 他 20 年 来 的 
研究 工作 。 该 书 的 主导 思想 是 ; 行为 可 以 由 神经 元 的 活动 来 解释 。 而 这 与 拥有 像 B. F. Skin- 
ner 这 样 的 支持 者 的 行为 主义 心理 学 会 的 观点 大 相 径 庭 ， 他 们 强调 刺激 与 反射 的 关联 ， 并 反 
对 任何 生理 学 假说 。 这 是 一 场 自 上 而 下 与 自 下 而 上 的 哲学 上 的 争论 。Hebb 这 样 阐述 他 的 方 
法 :“ 这 种 称 为 学 习 的 方法 因而 要 求 个 体 尽量 多 地 学 习 其 大 脑 各 组 成 部 分 所 产生 的 知识 (主要 
在 生理 学 领域 ) ,并 尽 其 所 能 将 这 些 知识 与 行为 相关 联 (主要 在 心理 学 范畴 ) ,在 对 大 脑 各 个 组 
成 部 分 的 活动 加 以 综合 之 后 ,对 行为 进行 预测 ,并 与 实际 的 行为 相对 比 ,从 中 发 现 差异 ,进而 据 
此 对 整个 大 脑 的 工作 原理 做 出 深入 的 探索 。 

Hebb 假设 ( The Organization of Behavior) 一 书 中 最 著名 的 思想 就 是 现在 称 为 Hebb 学 
习 的 一 个 假设 :“ 当 细胞 A 的 轴 突 到 细胞 B 的 距离 近 到 足够 激励 它 , 且 反复 地 或 持续 地 刺激 
有 ,那么 在 这 两 个 细胞 或 一 个 细胞 中 将 会 发 生菜 种 增长 过 程 或 代谢 反应 ,增加 A 对 细胞 中 的 
刺激 效果 。 

这 个 假设 提出 了 一 种 细胞 级 学 习 的 物质 机 制 。 尽 管 Hebb 从 未 宣称 其 理论 具有 可 靠 的 生 
理学 证 据 ， 但 是 其 后 的 研究 表明 某 些 细胞 的 确 表现 出 Hebb 学 习 的 行为 。Hebb 的 理论 对 当 
今 的 神经 科学 研究 仍 具 有 影响 。 

同 历史 上 许多 思想 一 样 Hebb 假设 也 并 不 是 全 新 的 ，Hebb 本 人 也 强调 了 这 一 点 。 它 吸 
收 了 许多 其 他 科学 家 的 思想 ， 如 弗 洛 伊 德 ， 以 及 心理 学 家 和 哲学 家 William James 在 1890 年 
提出 的 相 联 原理 ;“ 当 两 个 大 脑 过 程 同 活跃 或 立即 相继 活跃 时 ,其 中 之 一 会 重复 地 把 活 牙 状态 
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传播 给 另外 一 个 。” 
7.2.1 线性 联想 器 

线性 联想 器 ”Hebb 学 习 规 则 能 用 于 和 多 种 神经 网 络 结构 相 组 合 。 在 首次 讨论 Hebb 学 
习 时 ， 将 采用 一 种 非常 简单 的 结构 。 这 样 读者 就 能 够 集中 研究 学 习 规则 而 不 专注 于 结构 。 这 
里 将 使 用 的 网 络 被 称 为 线性 联想 器 (如 图 7-1 所 示 ， 它 是 由 James Anderson [Ande72] 和 Teu- 
vo Kohonen [Koho72] 分 别 独 立 提出 的 )。 





a= purelin(Wp) 
图 7-1 线性 联想 器 
输出 向 量 a 由 输入 向 量 p RH FARE: 
a= Wp (7.1) 
或 
a; = Wap; (7.2) 


联想 存储 器 线性 联想 器 是 被 称 为 联想 存储 器 的 神经 网 络 类 型 中 的 -种 神经 网 络 ， 联想 
存储 器 的 任务 是 学 习 0 对 标准 输入 /输出 向 量 : 
ip, tit. lp, tl o {po tol (7.3) 
即 是 如 果 网 络 接收 一 个 输入 p = p,， 那 么 它 应 能 产生 一 个 输出 a= bg， 这 里 9=1，2, 7 
0。 另 外 ， 如 果 输 入 发 生 了 微小 变化 ( 即 p= p, + 8)， 那 么 网 络 的 输出 只 应 发 生 轻 微 的 改变 
( 即 a=ty+s)。 


7.2.2 Hebb 规则 


为 了 将 Hebb 假设 用 于 训练 线性 联想 器 的 权 值 矩阵 ， 那 么 又 如 何 给 出 Hebb 假设 的 数学 
解释 呢 ? 首先 ， 再 次 重 述 一 下 该 假设 : 若 一 条 突 触 两 侧 的 两 个 神 径 元 同时 被 激活 ， 那 么 突 触 
的 强度 将 会 增 大 。 

Hebb 规则 请 注意 在 式 (7.2) 中 ， 输 入 P 和 输出 a; 之 间 的 连接 ( 突 触 ) 是 权 值 wy。 所 
LA, Hebb 假设 意味 着 : 如果 一 个 正 的 输入 p, 产生 一 个 正 的 输出 a;， 那么 应 该 增加 w; 的 值 。 
这 就 是 该 假设 的 一 种 数学 解释 ， 即 

wg” = wi + afi (aig) gi Cp.) (7.4) 
这 里 ”为 第 4 个 输入 向 量 p, 的 第 j 个 元 素 ，ou 为 把 第 9 个 输入 向 量 提交 给 网 络 时 网 络 输 出 
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的 第 i 个 元 素 ，c 是 一 个 称 为 学 习 速 度 的 正 的 常数 。 这 个 等 式 表明 : BUB. w; 的 变化 与 突 触 
两 边 的 活跃 水 数值 的 乘积 成 比例 。 本 章 把 式 (7.4) 简 化 成 如 下 形式 。 
wr" = we! + «dip; (7.5) 
请 注意 ;这 里 在 严格 解释 的 基础 上 扩展 了 Hebb (Rik, RAMBLER EDU SS ETE BA 
乘积 成 比例 。 因 此 ， 权 值 不 仅 在 p, Ma 均 为 正 时 增 大 ， 而 且 在 p; 和 oz 均 为 负 时 也 会 增 大 。 
另外 ， 只 要 p Ma; 的 符号 相反 ,那么 Hebb 规则 的 这 种 实现 将 使 得 权 值 减 小 。 
式 (7.5) 定 义 的 Hebb 规则 是 一 种 无 监督 的 学 习 规则 ， 它 不 需要 关于 目标 输出 的 任何 相 
关 信 息 。 本 章 只 关注 用 于 有 监督 学 习 的 Hebb 规则 (无 监督 学 习 的 Hebb 规则 将 在 第 13 Bit 
仑 )， 并 且 假 定 每 个 输入 向 量 相 应 的 目标 输出 都 是 已 知 的 。 对 于 有 监督 的 Hebb 规则 而 言 ， 
这 里 将 用 目标 输出 代替 实际 输出 。 由 此 ， 算 法 被 告知 的 就 是 网 络 应 该 做 什么 ， 而 不 是 网 络 当 
前 正在 做 什么 。 得 到 的 等 式 为 


wy. E wi 十 tip, (7.6) 
其 中 1, BB 个 目标 向 量 t, 的 第 ; 个 元 素 (为 了 简单 起 见 ， 这 里 设 学 习 速 度 a 的 值 为 1)。 
请 注意 ， 式 (7.6) 也 可 写 为 如 下 向 量 形 式 : 
wW! = W' + tsp’ (7.7) 


如 果 假 定 将 权 值 和 矩阵 初始 化 为 0， 然 后 0 个 输入 /输出 对 依次 应 用 式 (7.7)， 那 么 有 


W = tp) + tpi + …1+ topo - Dep? (7.8) 
4= 1 
用 和 矩阵 形式 可 以 表示 为 
T 
pi 
p. 
W = [titte] : = TP’ (7.9) 
po 
其 中 
= [tito], P= [pip…po] (7.10) 
性 能 分 析 


下 面 分 析 线 性 联想 器 的 Hebb 学 习 的 性 能 。 首 先 设 输入 向 量 p 为 标准 正 交 向 量 ( 向 量 之 
间 是 正 交 的 ， 每 个 向 量 的 长 度 为 单位 长 ) WPK p, 输入 到 网 络 ， 那 么 网 络 产生 的 输出 为 


a = Wp, = [tp lp, = CIEN (7.11) 
HIT p, 为 标准 正 交 向 量 ， 所 以 有 


l, q=k 
(P pr) = [o ; 7 (7.12) 

因此 式 (7.11) 可 重 写 为 
a= Wp, = t (7.13) 


些 时， 网络 的 输出 等 于 其 相应 的 目标 输出 。 "ud RURAL ORIS BRS EEX 
E, Hebb 规则 就 能 为 每 个 输入 生成 正确 的 输出 结 


[75] 
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但 是 当 输 入 原型 向 量 不 是 正 交 向 量 时 ， 又 将 如 何 呢 ? 假设 每 个 向 量 p, 为 单位 向 量 , 但 
是 它们 之 间 并 不 正 交 ， 那 么 式 (7.11) 变 为 


a = Wp, =t, + >it, (pp) (7.14) 
»k 
RE 
由 于 这 些 向 量 不 是 正 交 的 ， 所 以 网 络 的 输出 有 误差 。 误 差 的 大 小 取决 于 原型 输入 模式 之 
间 的 相关 总 和 。 
例如 ， 假 设 原 型 输入 /输出 向 量 为 
0.5 0.5 
-0.5 1 0.5 1 
PF} 05 [i= | - | > 1] os [t7 | i (7.15) 
-0.5 -0.5 


(可 以 验证 这 两 个 输入 向 量 是 标准 正 交 向 量 。) 那么 网 络 的 权 值 矩 阵 为 


























oa» | } [os -0.5 0.5 os] f 0 0 "n 
w= TP [^ 1410.5 0.5 -0.5 -0.5] lo 1 -1 0 (7.16) 
用 上 述 两 个 原型 输入 验证 该 权 值 矩阵 ， 有 
0.5 
10 0 -1]| -0.5 1 
Wp, = la 1-1 0 | 0.5 |7 | |] (7.17) 
- 0.5 
0.5 
10 0 -1 0.5 1 
Wp, = p 1 -1 0 | -0.5 |7 | | (7.18) 
~ 0.5 
[Te] 获得 成 功 ! 网 络 的 输出 与 目标 输出 相等 。 
现在 ， 再 次 考虑 在 第 3 章 中 给 出 的 苹果 和 橘子 的 识别 问题 。 其 原型 输入 为 
1 1 
p =| -1| ŒF), p=] 1 CER) (7.19) 
-1 -1 
(注意 : p, ，P 不 是 正 交 向 量 ) 将 p. p, 归 格 化 ， 并 选取 期 望 输出 为 -1 和 1， 则 有 
0.5774 0.5774 
Pi = - 0.5774 |,t = [- Ju z 0.5774 » = | (7.20) 
- 0.5774 - 0.5774 
这 时 的 权 值 矩阵 为 


0.5774 -0.5774 - 0.5774 
0.5774 0.5774 -0.5774 


所 以 ， 如 果 采 用 上 面 的 两 个 原型 输入 模式 ， 分 别 有 ”. 


W=TP’ =[-1 可 | | = to 1.1548 0] (7.21) 
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0.5774 
Wp, = [0 1.1548 a) osm = [- 0.6668] (7.22) 
- 0.5774 
0.5774 
0.5774 
- 0.5774 


这 里 的 输出 接近 目标 输出 ， 但 与 目标 输出 并 不 能 十 分 匹配 。 
7.2.8 ERN 


当 样 本 输入 模式 非 正 交 时 ，Hebb 规则 会 产生 误差 。 有 多 种 方法 可 以 减 小 这 种 误差 。 本 
节 我 们 讨论 其 中 之 一 ， 即 仿 逆 规则 。 
线性 联想 器 的 任务 是 对 于 输入 p 产生 输出 t, B 
Wp, = t; q = 1,2,°°,0 (7.24) 
如 果 无 法 找到 使 这 些 等 式 绝对 成 立 的 权 值 矩阵 ， 那 么 也 希望 找到 使 它们 近似 成 立 的 权 值 
和 矩阵。 一 种 方法 是 ， 选取 一 个 权 值 矩阵 ， 使 下 列 性 能 参数 最 小 化 : 
F(W) = > | t, - Wp, Il? (7.25) 
如 果 样 本 输入 向 量 p, 是 标准 正 交 的 ， "那么 用 Hebb 规则 来 求 权 值 矩 阵 W， 则 FCW)» 
零 。 如 果 输 入 向 量 不 是 标准 正 交 的 ， 那么 用 Hebb 规则 得 到 的 FOW ETETE, mE 
F(W) 是 否 为 最 小 值 也 不 十 分 清楚 。 可 以 证 明 ， 如 果 使 用 下 面 将 定义 的 仿 逆 规则 ， 则 所 得 权 
fig pen] E F(W) 最 小 化 。 
将 式 (7.24) 写 成 矩阵 形式 ; 


Wp, = [0 1.1548 0] - [0.6668] (7.23) 








WP - T, (7.26) 
其 中 
T=[t tb ' tlP=[p po Po- (7.27) 
则 式 (7.25) 可 以 写 为 
F(W) = |T-WPl2= |El? (7.28) 
这 里 
E = T- WP (7.29) 
且 
| EI? = 2; 2:6 (7 30) 
请 注意 : 如 果 式 (7.26) 有 解 ， 那么 F(W) 可 以 为 零 。 若 存在 矩阵 P 的 逆 ， 则 解 为 
W = TP! (7.31) 


然而 ， 这 是 很 少 有 可 能 的 。 通 常 和 矩阵 P 的 列 向 量 p, 是 线性 无 关 的 ， 但 P, AHER R 比 P, 的 
向 量 个 数 0 要 大 ， 所 以 P 不 是 一 个 方 阵 ， 不 存在 确切 的 道 阵 。 
参考 文献 [ Albe72] 表 明 使 式 (7.25) 最 小 化 的 权 值 矩阵 可 由 仿 送 规则 给 出 ; 
W = TP* (7.32) 
Jp P+ Moore - Penrose iio KEE P 的 仿 逆 是 满足 
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PP* P = P 
P* PP+ = Pt 
p+ P = (PtP)! (7.33) 
PP* = (PP+)7 

AEA. SM 了 的 行 数 R 大 于 其 列 数 0， 且 了 的 列 向 量 线性 无 关 时 ， 其 仿 逆 为 
P+ = (PP) P7 (7.34) 


为 了 验证 仿 道 规则 ( 式 7.320, BABER, TET ATARI. fA 7 EAN 


| | | | | 

psl-lpt2(tibip- 
LJ 

(请 注意 : 使 用 仿 逆 规则 时 不 需要 对 输入 向 量 进行 规格 化 。) 
用 式 (7,32) 计 算得 到 的 权 值 矩阵 为 


1 1 t 
W = TP = -1 1^ 1 | (7.36) 
-1 -1 


这 里 ， 用 式 (7.34) 计 算 仿 逆 : 





1 d 
1 je (7.38) 
-i | 








propior _ [3 JT -1 H . [925 -0.5 -0.25 
P= (P P) P f 3 1 1 -1] 1025 0.5 -0.25 (7.37) 
[79 这 就 得 到 了 如 下 权 值 矩阵 ， 
MP 0.25 -0.5 -025] | . 
WeTP-i-! Ulo os “Os = 10 ! 0] (7.38) 
用 该 权 值 矩阵 作用 于 两 个 原型 模式 : 
1 
Wp, = [0 1 a} >| =[-1] (7.39) 
-] 
1 
Wp, = [0 1 0] 1 | 2 (1 (7.40) 
-1 








这 里 的 网 络 输出 与 期 望 输出 精确 匹配 。 将 此 结果 与 Hebb 规则 的 性 能 比较 。 正 如 可 以 从 
式 (7.22) 和 式 (7.23) 看 出 的 那样 ，Hebb 的 输出 是 接近 的 ， 而 应 用 仿 逆 规则 却 能 产生 精确 的 
结果 。 
7.2.4 应 用 

自 联想 存储 器 ”现在 将 Hebb 规则 应 用 用 于 一 个 大 大 简化 了 的 实际 模式 识别 问题 。 这 
里 , 将 使 用 一 种 特殊 类 型 的 联想 存储 器 一 一 自 联想 存储 器 。 在 自 联 想 在 储 器 中 ， 期 望 输出 向 
量 等 于 网 络 的 输入 向 量 ( 即 t= p,)。 这 里 将 用 自 联想 存储 器 存储 一 组 模式 ， 并 且 当 其 输入 模 
式 有 所 “破损 "时 ， 它 仍然 能 够 将 其 复原 。 ' 
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这 里 要 存储 的 模式 如 图 7-2 所 示 ( 由 于 使 用 了 自 联 想 存储 器 ， 这 些 
模式 既是 输入 向 量 又 是 目标 向 量 )。 它 们 分 别 是 用 6 x 5 NIIT o BR FA F E 
数字 ;0，1，2, 。 这 里 需要 将 这 些 数字 转换 成 向 量 表示 形式 ， 分 别 作 Porti Pot Pats 
为 网 络 的 原型 模式 。 如 果 每 个 白色 的 方 格 用 ~ 1 表示 ， 每 个 黑色 的 方 E7 自 联想 存 
格 用 1 表示 ,那么 一 次 扫描 6 x 5 栅 格 中 的 一 列 , 就 可 以 生成 这 些 输 鱼 器 要 存储 的 模式 
入 向 量 。 例 如， 第 - -个 栅 格 所 表示 的 原型 模式 相应 的 输 和 向量 为 
psi-1llli-11-1-1-1-111-1..1-1]' (7.41) 
HE p. po p, 分 别 与 数字 O0, 1, 2 相对 应 EH Hebb 规则 求 权 值 矩 阵 ; 
W = pipi + PoP: +PP (7.42) 
请 注意 : 由 于 这 是 一 个 自 联 想 存 储 器 ， 所 以 这 里 用 
p, 代替 了 式 (7.8) 中 的 t,- 输入 对 称 硬 极限 层 
因为 样本 向 量 的 元 素 仅 限于 取 两 个 值 ， 这 里 将 
对 线性 联想 器 进行 修改 ， 以 使 其 输出 元 单元 也 仅 取 
值 -1 或 1。 为 此 ， 可 以 用 一 个 对 称 的 硬 极限 传输 
函数 代替 原来 的 线性 传输 函数 。 修 改 后 的 网 络 如 图 
7-3 所 示 。 
现在 来 研究 网 络 的 运行 情况 。 首 先 向 网 络 提供 破 。 、30 、 
损 的 原型 模式 ， 然 后 检查 网 络 的 输出 。 在 第 一 次 测试 a = hardlims(Wp) 
中 , 将 给 网 络 提供 的 原型 模式 的 下 半 部 分 隐 去 (如 图 图 7-3 用 于 数字 识别 的 自 联想 网 络 
7-4 所 示 )， 网 络 能 够 生成 每 个 样本 的 正确 的 模式 。 


时 > 生 t-f t-z 


图 7-4 KARET 50% 的 模式 
在 下 一 步 测 试 中 ， 去 掉 原型 模式 的 更 多 的 部 分 ， 图 7-5 给 出 去 掉 模 式 下 面 志 分 之 二 之 后 
的 模式 。 这 时 只 有 “1” 被 正确 恢复 。 另 外 两 个 模式 的 的 恢复 结果 与 原型 模式 都 不 一 样 。 这 是 
联想 存储 器 普遍 存在 的 问题 。 这 里 希望 能 够 设计 出 尽量 减少 产生 这 种 错误 模式 数量 的 网 络 。 
在 第 18 章 讨 论 递 归 联 想 存储 器 时 ， 还 将 讨论 这 一 问题 。 [zu] 


S-Em Bed | 


图 7-5 恢复 隐 去 了 67% 的 模式 
在 最 后 的 测试 中 ， 将 对 加 入 噪声 的 原型 模式 测试 自 联 想 网 络 。 通过 随机 地 改变 每 一 原型 
模式 的 7 个 元 素来 加 和 噪声。 测试 结果 如 图 7-6 所 示 ， 这 里 所 有 的 模式 都 被 正确 恢复 。 


&-B S- z-É 


图 7-6 恢复 带 噪 声 的 模式 
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可 以 使 用 Neural Network Design Demonstration Hebb Rule (nnd7hr) 对 这 类 模式 
识别 问题 进行 试验 。 





7.2.5 Hebb 学 习 的 变形 


基本 的 Hebb 规则 可 以 有 许多 变形 。 实 际 上 ， 本 书 的 后 面 其 他 章节 所 讨论 的 学 习 规 则 都 
与 Hebb 规则 有 关 。 

Hebb 规则 的 问题 之 一 是 : 如 果 训 练 集中 存在 许多 原型 模式 ，Hebk 规则 会 使 权 值 矩阵 元 
素 过 多 。 再 次 考虑 基本 规则 : 


wee = W + top? (7.43) 
可 以 使 用 一 个 称 为 学 习 速 度 的 正 参数 a( 小 于 1) PRA EB RA, BD 
we = Wo 4 atop? (7.44) 


也 可 以 再 加 上 一 个 衰减 项 ， 使 学 习 规则 的 行为 像 一 个 平滑 过 滤器 ， 更 加 清晰 地 记忆 最 近 


的 提供 给 网 络 的 输入 : 
We = W + at. p? - YW! = (1 - 7) W% + atap? (7.45) 


-12 其 中 7 为 小 于 1 的 正 的 常数 。 如 果 y 趋 近 于 零 ， 那 么 学 习 规 则 趋 近 于 标准 规则 ， 如 果 y EDU 


于 1， 那么 学 习 规 则 将 很 快 忘记 旧 的 输入 ， 而 仅 记 忆 最 近 的 输入 模式 。 据 此 可 知 ， 这 些 项 的 
引入 可 以 避免 权 值 矩 阵 无 限制 地 增 大 。 

过 滤 权 值 变化 和 调整 学 习 速 度 的 思想 非常 重要 ， 本 书 还 将 在 第 10 AR 12 到 16 章 中 
再 次 对 其 进行 讨论 。 

如 果 用 期 望 输出 与 实际 输出 之 差 代 替 式 (7.44) 中 的 期 望 输出 ， 那 么 可 以 得 到 另 一 个 重要 


学 习 规则 ;: 
We = We + a(t, -ao)p7 (7.46) 


这 就 是 所 谓 的 增 量 规则 ， 因 为 它 使 用 了 期 望 输出 与 实际 输出 之 差 。 根 据 它 的 研究 和 提出 
者 又 被 称 为 Widrow-Hoff 算法 。 增 量规 则 调整 权 值 以 使 均 方 误差 最 小 (参见 第 10 章 )， 因 而 
它 与 仿 逆 规则 得 到 的 结果 相同 ， 仿 逆 规 则 使 误差 平方 和 最 小 化 ( 式 (7.25))。 增 量规 则 的 优点 
是 每 输入 一 个 模式 它 就 能 更 新 一 次 权 值 ， 而 仿 逆 规则 要 等 待 所 有 输入 /输出 模式 已 知 后 才能 
计算 一 次 权 值 。 这 种 顺序 的 权 值 更 新 方法 使 得 增 量 规则 能 适应 变化 的 环境 。 第 10 章 将 详细 
讨论 增 量规 则 。 

第 13 章 将 在 不 同情 况 下 再 次 讨论 基本 的 Hebb 规则 。 本 章 仅 使 用 了 Hebb 规则 的 一 种 有 
监督 的 学 习 形式 。 我 们 假定 了 网 络 的 期 望 输 出 t 为 已 知 的 ， 并 能 在 学 习 规 则 中 使 用 。 第 13 
章 讨论 的 Hebb 规则 的 无 监督 形式 将 使 用 实际 的 网 络 输出 代替 期 望 的 网 络 输出 ， 即 如 : 

we = W” + on p? (7.47) 
其 中 ay 是 给 定 p, 为 输入 时 的 网 络 输出 (参见 式 (7.5) )。 Hebb 规则 的 这 种 无 监督 学 习 形式 由 
于 不 需 知道 期 望 输出 ， 实 际 上 比 有 监督 的 Hebb 规则 更 能 够 直接 地 说 明 Hebb 的 原理 。 


7.8 小 结 


Hebb 假设 
“ 当 细 胞 A 的 轴 突 到 细胞 日 的 距离 近 到 足够 激励 它 , 且 反复 地 或 持续 地 刺激 B, 那 么 在 这 
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两 个 或 一 个 细胞 中 将 发 生菜 种 增长 过 程 或 代谢 反应 ,增加 A 对 细胞 B 的 刺激 效果 。 
线性 联想 器 





Hebb 规则 
wy = wj. + tup, 
W = tip? + bp; cU + topo 
pi 
p; 
W = [tbe…to] ，| = TP7 
Po 
仿 逆 规则 
W = TP* [7.14 | 
当 卫 的 行 数 R 大 于 其 列 数 0 B. P 的 列 向 量 线性 无 关 时 ， 仿 逆 可 由 下 式 求 出 : 
P+ = (P7P)-:P7 
Hebb 学 习 的 变形 
tees 
we = (1 - y)W + at PI 
(参见 第 14 XE) 
增 量 规则 
wr = W + a(t, -ay)P 
(参见 第 10 XE) 
无 监督 的 Hebb 学 习 
we = W + aa PI EN 
(参见 第 13 3€) 715 
7.4 例题 


O P7.1 考虑 图 7-7 的 线性 联想 器 。 设 输入 /输出 样本 向 量 为 
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(i) 运用 Hebb 规则 求 该 线性 联想 器 的 权 值 矩阵 。 
(ii) 运用 仿 逆 规则 重复 (让 题 。 
(iii) 将 输入 p, 应 用 到 由 (i) 所 得 权 值 矩阵 处 的 线性 联想 器 ， 然 后 应 用 到 由 (ii) 所 得 权 值 





矩阵 的 线性 联想 器 。 
a = purelin (Wp) 
图 7-7 单 神经 元 感知 机 
解 
(i) 第 一 步 根据 式 (7.10) 建 立 矩阵 P 和 T: 
1 1 
-1 1 1 1 
Pe}. - T= | -1 1 | 


Tie! 然后 使 用 式 (7.9) 求 权 值 矩阵 : 

1 Jh -1 1 SB 0 -2 
-1 1jll 1 -1 -1 
(Cii) 对 仿 道 规 则 使 用 式 (7.32): 


w.m.| 


W = TP 
由 于 PP 的 行 数 为 4， 大 于 其 列 数 2， 且 鞭 列 向 量 线性 无 关 ， 则 可 用 式 (7.34) 求 仿 道 ; 
P+ = (P7p)- P? 


-1 -1 
-1 
4 0 1 -1 1 
-| 2] |! 1 -1 | 

d 1 1 1 1 

anak -1 1 SIEBEN 4 74 
- iili 1 -1 -1] |1 1 1 1 

0 4 4 4 74 ^4 
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现 可 以 计算 权 值 矩阵 : 


1 1 
w = TP = | | 
-1 1 


(ui 现在 测试 两 个 权 值 矩阵 : 


we l2 5 |e BA t 
P7502 -2 of} 1|^(-4] F^ 
7-17 i 

1 


1 
vus au ls ees 
072-72 9 l.i 

为 什么 Hebb 规则 不 能 产生 正确 的 结果 呢 ? 重新 考虑 式 (7.11)。 由 于 p, RI p, 正 交 (请 对 

此 进行 验证 ) ， 这 个 等 式 可 以 写 为 
W'p, = ti(prp) 
但 向 量 p, HERRE, H ppl, ETE ASSET to 
另 一 方面 ， 仿 逆 规 则 能 够 确保 下 式 达 到 最 小 值 ; 


> |t, - Wp, li? 


该 式 的 值 在 本 题 中 为 零 。 qe 
P7.2 考虑 图 7-8 所 示 的 原型 模式 。 p 
(i) 这 些 模式 是 否 正 交 ? Pi pz 
(ii) 使 用 Hebb 规划 ， 为 这 些 模 式 设计 一 个 自 联想 存储 髓 。 
(ii) 输入 图 7-8 中 的 原型 模式 p,， 求 网 络 响 应 。 
F 
(i) 首先 将 模式 转换 成 向 量 。 假 设 黑 方 格 取 值 为 1， 白 方 格 取 值 为 - 1。 P: 
然后 对 模式 进行 逐 列 扫描 ,可 以 将 这 些 二 维 模式 转换 成 向 量 (也 可 以 逐 行 扫 
描 )。 由 此 得 到 如 下 两 个 原型 向 量 : 
p= 1 -1 1 -1 -1 p=[-1 1111 -1 


为 了 判断 p, 和 p, 是 否 正 交 ， 需 要 求 它们 的 内 积 : 7-18 
pIpp=[l 1 -1 1 -1 -1] 


at p, 和 p, 是 正 交 的 。( 由 于 p7p = py p =6， 所 以 p, p, 都 不 是 规格 化 向 量 。) 
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(ii) 采用 如 图 7-3 所 示 的 自 联想 存储 器 ， 这 里 的 输入 /输出 的 数量 为 6。 运用 Hebb 规 
TUR AEE : 





W = TP’ 
其 中 
[ 1 -1 
1 1 
pa-r- 71! 
1 1 
-1 1 
L-1 -1 
所 以 权 值 矩阵 为 
1 -1 2 0 -2 0 -2 0 
1 1 0 2 0 2 0 -2 
w-mr-|-!! 1 1 -1 1-1 -1] | -2 0 2 0 2 0 
1 1 il-11 1 1 1 -1 0 2 0 2 0 -2 
-1 1 -2 0 2 0 2 0 
-1 -1 0 -2 0 -2 0 2 
(ii) 为 了 把 测试 模式 提交 给 该 网 络 ， 需 要 将 其 转化 为 如 下 向 量 ， 
psí11111 -1J? 
那么 网 络 的 响应 为 
2 0 -2 0 -2 0 1 
0 2 0 2 0 -2 1 
-2 0 2 0 2 0 1 
a - hardlims(Wp,) - hardlims 
0 2 0 2 0 -2 1 
-2 0 2 0 2 0 1 
0 -2 0 -2 0 2 -1 
-2 -1 
6 1 
. 2 1 
a = hardlims 6 = 1 |=? 
2 1 | 
-6 -1] 


这 是 满意 的 网 络 响应 吗 ? 我 们 希望 网 络 对 这 个 输入 模式 如 何 响应 ? PAR AE 5f A 
模式 最 接近 的 原型 模式 。 这 里 ， 测 试 输入 模式 P. 与 p, 的 Hamming 距离 为 1, 与 p, 的 Ham- 
ming 距离 为 2。 因 此 ， 该 网 络 的 确 产 生 正 确 的 响应 (参见 第 3 章 关 于 Hamming 距离 的 论述 )。 

请 注意 : 本 例 中 并 未 对 原型 向 量 进行 规格 化 。 但 这 并 未 导致 发 生 在 P7.1 中 相同 的 网 络 
性 能 问题 ， 原 因 在 于 hardlims 的 非 线性 特性 使 得 网 络 输出 只 能 取 1 或 - 1。 实 际 上 ， 大 多 数 
神经 网 络 非常 有 趣 和 有 用 的 特性 都 归 因 于 非 线性 特性 的 作用 。 
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P7.3 考虑 有 三 个 原型 模式 (如 下 所 示 的 p,，p,，p;) 的 自 联想 问题 。 试 分 别 运 用 Hebb 
规则 和 仿 逆 规 则 设计 一 个 自 联 想 网 络 ， 以 识别 这 些 模式 。 用 下 面 的 测试 模式 p, 检验 网 络 的 


性 能 。 


解 
这 个 问题 用 手工 求解 有 些 枯燥 ， 所 以 我 们 用 MATLAB 工具 求解 。 
首先 ， 建 立 原型 向 量 : 


P = [pl p2 p3] 
现在 用 Hebb 规则 求 权 值 矩 阵 ， 


为 了 测试 网 络 ， 首 先生 成 测试 向 量 : 
pt=[-1 1 -1 -1 1 -1 1} 
然后 计算 网 络 的 响应 : 
ah = hardlims(wh* pt) 
ah! 
ans = 
1 1 -1 -1 1 -1 1 
请 注意 ; 这 个 响应 与 任何 原型 向 量 都 不 匹配 。 这 并 不 奇怪 ， 因 为 原型 模式 并 不 是 正 交 
的 。 现 在 用 仿 逆 规则 再 来 计算 。 
pseu = inv(P! * P) * P! 
wp = P* pseu 
ap = hardlims( wp“ pt) 
ap! 
ans - 
-1 1 -1 1 1 -1 1| 721 
请 注意 : PAPIAS; p, 相等 。 这 是 正确 的 响应 吗 ? 通常 希望 响应 为 与 输入 模式 最 接 
近 的 原型 模式 。 在 本 题 中 ，p, 与 pl p, 的 Hamming 距离 均 为 2， 只 有 与 p, 的 Hamming E 
离 为 1。 因 此， 仿 逆 规则 产生 了 正确 的 响应 。 
请 用 其 他 测试 输入 验证 是 否 存 在 仿 逆 规则 比 Hebb 规则 产生 更 好 结果 的 其 他 情况 。 
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P7.4 考虑 图 7-9 中 的 三 个 样本 模式 。 
(i) 用 Hebb 规则 设计 一 个 感知 机 网 络 识别 这 三 个 模式 。 "E d 
(ii) 求 该 网 络 对 图 7-9 中 模式 p, 的 响应 ， 并 判断 该 响应 是 否 正确 。 P P Pe 


m 

Ci) 按照 前 面 例题 的 做 法 ， 将 这 些 模式 转换 成 如 下 向 量 ， ma 
1 1 -1 1 Pr 
-1 1 -1 -1 

P: = i Po =} _ | P32} | P: = 1 图 7- 


1 1 1 -1 
现在 需要 选择 每 一 原型 输入 向 量 的 期 望 输出 向 量 。 由 于 有 三 个 原型 向 量 需要 区 分 ， 所 以 
输出 向 量 需 要 两 个 元 素 。 假 设 三 个 原型 输入 向 量 的 期 望 输出 分 别 为 


EE 
-] 1 -Í 
(HER: 这 种 选择 是 任意 的 ， 可 以 为 每 个 向 量 设 定 1 和 -1 的 不 同 组 合 。 
[7-22 所 设计 的 感知 机 网 络 如 图 7-10 所 示 。 
输入 对 称 硬 极限 层 





a = hardlims(Wp) 


图 7-10 例题 P7.4 的 感知 机 网 络 





然后 用 Hebb 规则 确定 权 值 矩阵 : 
1 1 1 
W = TP? - -1 -1 "| 1 TP ] n -1 -1 -| 
-1 1 -1 ^11 3 -1 -1 
-1 -1 -1 
Cii) 相应 于 测试 输入 模式 的 网 络 响应 为 ， 


( 1 
a= meme) = ten [7 3 Hu n 
= haratims(| 2]]-|-1] n 


网 络 响应 表明 测试 输入 模式 与 p, 最 接近 。 这 是 正确 的 ， 因 为 到 p, 的 Hamming 距离 为 
l, 而 到 P- 和 P3 的 Hamming 距离 都 是 3。 
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P7.5 假设 针对 Q 个 长 度 为 R 的 正 交 样 本 向 量 ， 用 Hebb 规则 设计 了 一 个 线性 自 联 想 存 
储 器 。 向 量 元 素 为 1 或 - 1。 

Ci) 证 明 Q 个 原型 模式 为 权 值 矩阵 的 特征 向 量 。 

Cii) 求 出 权 值 矩阵 的 另外 ( 尽 - 8) 个 特征 向 量 。 

解 

Ci) 设 原型 向 量 为 : 

Pii B2» 77 Po 
由 于 这 是 一 个 自 联想 存储 器 ， 这 些 向 量 是 输入 向 量 ， 也 是 期 望 输 出 向 量 。 所 以 有 
= [pp po 卫 = | pp pil 

如 果 用 Hebb 规则 求 权 值 矩 阵 , 由 式 (7.8) 可 得 


W = TP! = dpe! 
现在 ， 将 一 个 原型 向 量 作为 网 络 输 人 ， 则 有 
a = Wp, = (par) )p, = XN pz) 
因为 这 些 模式 正 交 ， 所 以 上 式 可 简化 为 


a = p,(p/ p,) 
又 由 于 p, 的 每 个 元 素 只 能 取 1 或 - 1， 求 得 
a = p,R 
综合 以 上 结果 
Wp, = Rp, 


这 表明 : p, 是 W 的 特征 向 量 ， 而 R 则 是 相应 的 特征 值 。 每 个 原型 向 量 都 是 具有 同一 特 
征 值 的 W 的 一 个 特征 向 量 。 
(ii) 注意 到 多 重 特征 值 R 有 一 个 与 其 相关 的 Q 维特 征 空间 : 由 0 个 原型 向 量 生 成 的 
子 空 间 。 现 在 考虑 与 特征 空间 正 交 的 子 空间 。 这 个 子 空间 内 的 每 个 向 量 都 应 与 每 个 原型 向 量 
正 交 。 正 交 子 空间 的 维 数 为 R - Q 。 考 虑 这 个 正 交 空 间 的 任意 一 个 基 集 ; 
21,22, ,Zg- 9 


任 取 一 个 基 向 量 作 用 于 网 络 ， 可 得 


a = Wz, = (Zp) ) z, = Dp, lpr z,) = 0 
由 于 每 个 z 与 每 个 P, TEX, 这 也 说 明 zw 的 以 0 为 特征 值 的 特征 向 量 。 
综 上 所 述 ， 权 值 矩 阵 有 两 个 特征 值 R 和 0。 也 就 是 说 ， 由 原型 向 量 生成 的 空间 中 的 任意 
向 量 都 将 被 扩大 R 倍 ， 而 任何 与 原型 向 量 正 交 的 向 量 都 将 被 置 为 零 。 在 第 18 章 讨 论 Hop- 
field 网 络 的 性 能 时 ， 我 们 还 会 用 到 这 个 概念 。 
P7.6 本 章 迄 今 为 止 所 使 用 的 网 络 都 不 包含 偏 置 向 量 。 考 虑 设计 能 够 识别 下 面 模式 的 感 
知 机 网 络 (图 7-11) : 








7-23 





7-24 





114 FPES IAS E tf 





输入 对 称 硬 极 限 层 


n a 
Q 1x1 十 1x1 





a = hardlims(Wp + b) 
图 7-11 单 神经 元 感知 机 


Ci) 为 什么 求解 这 个 问题 需要 偏 置 值 ? 
Gi) 用 仿 逆 规 则 设计 一 个 包含 偏 置 值 的 网 络 求解 此 问题 。 


解 

(i) 在 第 3 章 和 第 4 章 中 ， 感 知 机 的 判定 边界 是 由 下 式 定 义 的 一 条 直线 ; 
Wp+ 6 = 0 

如 果 不 存在 偏 置 值 ， 那 么 5 = 0， 判 定 边 界定 义 由 
Wp = 0 


定义 ， 必 定 是 一 条 经 过 坐标 原点 的 直线 。 现 在 考虑 本 题 中 给 出 
的 两 个 向 量 p 和 p,。 它 们 表示 在 图 7-12 中 ， 图 中 还 有 一 条 经 
过 坐标 原点 的 任意 判定 边界 。 显 然 ， 任 何 穿 过 坐标 原点 的 判定 
边界 线 都 不 可 能 将 向 量 p Ap 分 开 。 所 以 需要 引入 偏 置 值 来 
求解 本 问题 。 

(il) 为 了 在 存在 偏 置 项 时 使 用 仿 逆 规则 (或 Hebb 规则 )， 
应 该 将 偏 置 值 看 成 是 输 人 为 1 的 另外 一 个 权 值 (如 在 所 有 网 络 
图 形 中 所 示 那 样 ) ， 然 后 对 输入 向 量 添加 一 个 1 作为 最 后 元 素 ; 





图 7-12 问题 求解 的 图 形 表示 














1 2 
pi1=|1|，p:=|2? 
1 1 
假设 这 两 个 输入 向 量 的 期 望 输出 分 别 为 : 
t,=1, t; =-I1 
所 以 
1 2 
P = 1 T=[1 -1] 
1 1 
现在 来 构造 仿 逆 矩阵 : 


P'- 





12]Y! a 
|: SHE > | 2 MAN | [ee 788 i 
221 - 2211 159 22 1] 10.5 05 -1 
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那么 添加 元 素 后 的 权 值 矩 阵 为 ， 
-0.5 -0.5 2 , 
W -TP'-[1 -1] 0 5 0 5 _ 1 =[-1 -1 3] 
最 后 ， 可 得 标准 权 值 矩阵 和 偏 置 值 ; 7-26 
W-[-1 -1], = 3 


由 该 权 值 矩 阵 和 偏 置 值 形 成 的 判定 边界 如 图 7-13 所 示 。 这 个 边界 将 两 个 原型 向 量 分 离 
FT: 





图 7-13 求解 例题 P7.6 的 判定 边界 


P7.7 迄今 为 止 的 所 有 模式 识别 的 例子 中 都 是 用 1 和 -1 的 向 量 来 表示 模式 ， 其 中 “1" 代 
表 图 像 元 素 的 暗 象 素 ,，“ - 1” 代 表 亮 象 束 。 如 果 用 “1” 和 “0" 来 表示 ， 又 将 如 何 ” Hebb 规则 应 
作 什么 改变 ? 

解 

首先 介绍 一 些 用 来 区 别 这 两 种 不 同 表 示 ( 通 常 指 双 极 表示 法 | - 1，1} 和 二 进 制 表 示 法 10， 
1|) 的 符号 。 原 型 输入 /输出 向 量 的 双 极 表示 法 记 为 


fp tib ipsios tpg otal 
二 进 制 表示 法 记 为 
ip o til lpa tol ipo. tol 
两 种 表示 法 的 关系 为 : 
ps = ps +41, p, = 2p, - 1 
其 中 1 为 1 的 向 量 。 


然后 我 们 确定 二 进 制 联想 网 络 的 形式 。 这 里 使 用 如 图 7-14 所 示 的 网 络 ， 它 与 图 7-3 所 
示 的 双 极 联想 网 络 的 形式 相 比 有 两 点 不 同 。 首 先 ， 它 使 用 hardlim 的 非 线性 特性 ， 而 不 是 
hardlims ， 这 样 可 以 使 其 输出 为 0 或 1。 其次， 它 使 用 了 偏 置 向 量 。 需 要 偏 置 向 量 是 因为 所 
有 的 二 进 制 向 量 都 落 在 向 量 空间 第 [象限 ， 故 穿 过 坐标 原点 的 边界 线 并 不 保证 一 定 能 够 分 离 [727 
开 所 有 的 模式 (参见 例题 P7.6)。 

下 一 步 是 确定 该 网 络 的 权 值 矩阵 和 偏 置 向 量 。 如 果 要 使 图 7-14 所 示 的 二 进 制 网 络 具 有 
与 图 7-3 所 示 双 极 网 络 具 有 同样 的 有 效 响应 ， 必 须 使 两 个 网 络 的 净 输 入 n 相同: 

Wp +b = Wp 
这 样 能 够 保证 当 双 极 网 络 产生 “1" 时 二 进 制 网 络 也 产生 “1”， 当 双 极 网 络 产生 “ - 1 时， 
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输入 硬 极限 层 





a = hardlim(Wp'+b) 


图 7-14 二 进 制 联想 网 络 
二 进 制 网 络 产生 “0 ”。 
TIR HS p 的 一 个 函数 代替 p, RIRE 
W (二 p+ 方 1 +b= 广 Wp+ 广 W1+b= Wp 
所 以 ， 为 了 生成 和 双 极 网 络 相同 的 输出 结果 ， 应 该 选择 
W =2W, b=- Wi 


其 中 W 为 双 极 权 值 矩 阵 。 


7.5 ”结束语 


本 章 有 两 个 主要 目的 。 第 一 ,介绍 一 个 影响 深远 的 神经 网 络 学 习 规 则 ; Hebb 规则 。 它 
是 最 早 提 出 的 神 径 网 络 学 习 规 则 之 一 ， 而 且 将 继续 影响 最 近 所 提出 的 -一 些 神经 网 络 学 习 理 
论 。 第 二 ， 如 何 用 前 两 章 所 阐述 的 线性 代数 概念 对 该 学 习 规 则 的 性 能 进行 诠释 。 这 也 是 本 书 
的 主要 目的 之 一 。 我 们 意 在 揭示 某 些 重要 的 数学 概念 如 何 构成 所 有 人 工 神 经 网 络 运行 的 基 
础 。 我 们 将 继续 使 数学 思想 与 神经 网 络 应 用 紧密 结合 ， 进 而 使 读者 对 二 者 的 理解 能 够 得 以 深 
化 。 

在 第 13 章 和 第 18 章 中 还 会 用 到 Hebb 规则 。 第 18 章 将 应 用 Hebb SUI ETT # ARR 
储 器 网 络 一 一 Hopfield 网 络 。 

接 下 来 的 两 章 将 介绍 一 些 对 理解 第 10 章 和 第 11 章 中 的 两 个 学 习 规则 而 言 至 关 重要 的 数 
学 知识 。 这 些 学 习 规则 的 属于 性 能 学 习 一 类 ， 因 为 它们 都 是 为 了 尽量 使 网 络 的 性 能 得 到 优 
化 。 为 了 理解 这 些 性 能 学 习 规 则 ， 需 要 引入 一 些 基 本 的 优化 概念 。 这 和 学 习 Hebb 规则 一 
样 ， 前 面 的 线性 代数 知识 也 将 对 理解 这 些 优化 问题 的 大 有 神 益 。 


参考 文献 


[Albe72] A. Albert, Regression and the Moore - Penrose Pseudoinverse, New York: Academic 
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Albert 的 著作 是 仿 道 的 基本 特性 及 其 理论 的 主要 文献 ， 同 时 还 包括 了 所 有 主要 的 仿 
逆 理 论 的 证 明 。 
[Ande72] J. Anderson, "A simple neural network generating an interactive memory," Mathe- 


matical Biosciences, Vol. 14, pp. 197 - 220, 1972. 
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Anderson 提出 了 联想 存储 器 的 一 种 线性 联想 器 模型 。 该 模型 使 用 一 种 推广 的 Hebb 
原理 进行 训练 ， 学 习 在 输入 /输出 向 量 之 间 建 立 关 联 关系 。 他 主要 强调 了 网 络 的 生理 学 
仿生 特性 。Kohonen 发 表 了 一 篇 类 似 的 论文 [Koho72]， 但 是 他 们 是 各 自 独 立 完 成 了 这 
项 工作 的 。 
f Hebb49] D. O. Hebb, The Organization of Behavior , New York: Wiley, 1949. 
这 本 重要 的 著作 主要 论述 了 行为 能 由 神经 的 活动 来 解释 。 在 本 书 中 ，Hebb 提出 了 
最 早 的 学 习 规 则 之 一 ， 即 一 种 在 细胞 级 别 上 的 学 习 机 制 。 
LKoho72] T. Kohonen, “Correlation matrix memories," IEEE Transactions on Computers , 
Vol. 21, pp. 353 - 359, 1972. 
Kohonen 提出 了 一 种 联想 存储 器 的 关联 矩阵 模型 。 该 模型 使 用 外 积 寿 储 规则 (也 称 
为 Hebb 规则 )。 来 学 习 输 入 /输出 向 量 之 间 的 关联 关系 ， 主 要 强调 网 络 的 数学 结构 。 
Aoderson 在 同一 时 期 发 表 了 一 篇 类 似 的 论文 [Ande72]， 但 是 他 们 是 独立 完成 这 项 工作 


的 。 


习题 a ae 


E7.1 请 考察 图 7-15 所 示 的 样本 模式 。 Pi Pe 
(i) p, 和 p, 是 否 正 交 ? 
(ii) 请 运用 Hebb 规则 为 这 些 模式 设计 一 个 自 联 想 
器 网 络 。 HW 
(ii) 使 用 图 7-15 中 所 示 的 输入 模式 p, 来 测试 该 网 Pr 
络 的 操作 。 网 络 能 否 达到 预期 的 目标 ? 请 给 图 7-15 


出 相应 的 解释 。 E Es 


E7.2 请 用 仿 逆 规则 求解 E7 .1。 


E7.3 试用 Hebb 规则 确定 如 图 7-17 所 示 的 感知 机 网 络 的 Pi P 
权 值 矩阵 ， 以 识别 图 7-16 所 给 出 的 模式 。 图 7-16 练习 E7.3 
输入 对 称 硬 极限 层 的 感知 机 网 络 





a = hardlims(Wp) 


图 7-17 
E7.4 在 例题 P7.7 中 阐述 了 当 原 型 向 量 为 二 进 制 形式 ( 同 双 极 形式 相反 ) 时 如 何 用 Hebb 
规则 训练 网 络 。 请 用 二 进 制 形式 表示 原型 向 量 求解 E7.1。 说明 这 各 二进制 网 络 的 


响应 与 原来 的 双 极 网 络 的 响应 相等 。 
E7.5 WUER: 如 果 将 Hebb 规则 确定 的 自 联 想 器 的 权 值 矩阵 的 对 角 线 元 素 设置 为 0， 网 
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HIRRET. EDR FRA: 
[731] W = PP’ - QI 

其 中 Q 为 原型 向 量 个 数 。( 提 示 : 证 明 原 型 向 量 仍 为 新 的 权 值 矩阵 的 特征 向 量 ,) 
E7.6 有 三 个 输入 /输出 原型 向 量 对 : 


ERE HE 


Ci) 请 说 明 ， 除 非 网 络 使 用 一 个 偏 置 值 ， 否 则 这 个 问题 无 法 求解 。 

Ci) 请 用 仿 逆 规则 设计 一 个 处 理 这 些 原 型 向 量 的 网 络 。 证 明 网 络 可 以 正确 地 转 
换 这 些 原型 向 量 。 

E7.7 考虑 下 列 关 于 Hebb 规则 和 仿 道 规则 的 问题 ， 一 个 权 值 矩阵 能 存储 多 少 原型 模式 ? 

请 用 7.2.4 节 讨 论 的 数字 识别 问题 实验 来 测试 该 问题 。 从 数字 “0” 和 “1” 开 始 。 一 

次 加 一 个 数字 直到 6 为止， 测试 当 随机 改变 2，4 和 6 个 象 素 时 网 络 能 够 正确 重 构 

数字 的 次 数 。 

(i) 首先 用 Hebb 规则 生成 数字 “0”" 和 “1” 的 权 值 矩阵 。 然 后 随机 地 改变 每 个 数字 
的 2 个 象 素 ， 并 将 带 噪声 的 数字 输入 到 网 络 。 重 复 此 过 程 10 次 ， 记录 网 络 
输出 端 产生 正确 模式 (无 噪声 数字 ) 次 数 所 占 的 百分比 。 改 变 每 个 数字 的 4 
个 象 素 和 6 个 象 素 ， 重 复 上 述 实 验 。 然 后 用 数字 “0”"、“1” 和 “2”， 完 全 重复 
上 述 过 程 。 实 验 一 直 进 行 下 去 ， 每 次 一 个 数字 ， 直 到 用 数字 “0” 到 “6” 的 所 
有 数字 测试 网 络 为 止 。 完 成 全 部 测试 后 ， 就 能 画 出 表示 重 构 错误 与 存储 数 
字 个 数 百分比 的 三 条 曲线 ， 每 条 曲线 分 别 对 应 于 2 个 、4 个 和 6 个 象 素 错 
误 。 

[732] (ii) 请 用 仿 逆 规则 重复 (i) ， 并 比较 两 种 规则 的 实验 结果 。 
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第 8 章 性 能 曲面 和 最 优点 


8.1 HB 


本 章 介绍 的 是 一 类 称 为 性 能 学 习 的 神经 网 络 训练 的 基础 知识 。 神 经 网 络 有 几 种 不 同类 型 
的 学 习 规 则 ， 如 联想 学 习 ( 参 见 第 7 章 的 Hebb 学 习 ) 和 竞争 学 习 ( 将 在 第 14 章 中 讨论 )。 性 能 
学 习 是 男 一 类 重要 的 学 习 规则 ， 其 目的 在 于 调整 网 络 参数 以 优化 网 络 性 能 。 下 面 两 章 将 介绍 
性 能 学 习 开发 的 背景 知识 ， 而 性 能 学 习 的 具体 细节 则 将 在 第 10 章 和 第 11 章 详细 讨论 。 本 章 
的 主要 目的 是 研究 性 能 曲面 ， 并 确定 性 能 曲面 存在 极 大 点 和 极 小 点 的 条 件 。 第 9 章 将 继续 讨 
论 定位 极 大 点 和 极 小 点 的 过 程 。 


8.2 理论 和 实例 


性 能 学 习 ”有 几 种 不 同 的 学 习 规 则 可 以 归 类 于 性 能 学 习 ， 本 章 将 介绍 其 中 两 种 ， 它 们 的 
区 别 在 于 训练 网 络 时 为 优化 网 络 性 能 而 调整 网 络 参 数 ( 权 值 和 偏 置 值 ) 的 方法 不 同 。 

性 能 指数 ”这 种 优化 过 程 分 两 个 步骤 进行 。 第 一 步 是 定义 “性 能 ”(performance) 的 含义 。 
换言之 ,需要 找到 一 个 衡量 网 络 性 能 的 定量 标准 ， 即 性 能 指数 ， 性 能 指数 在 网 络 性 能 良好 时 
很 小 ， 反 之 则 很 大 。 在 本 章 以 及 第 9 章 ， 我 们 都 假设 性 能 指数 是 已 知 的 。 第 10 章 和 第 11 E 
将 讨论 性 能 指数 的 选择 方法 。 

优化 过 程 的 第 二 步 是 搜索 减 小 性 能 指数 的 参数 空间 (调整 网 络 权 值 和 偏 置信 )。 本 章 将 研 
究 性 能 曲面 的 特性 ， 并 建立 确保 极 小 点 ( 即 所 寻求 的 最 优点 ) 存 在 的 条 件 。 所 以 在 本 章 将 了 解 
VERE Ht IEEE — H6 ER, B 9 章 则 将 给 出 确定 最 优点 的 过 程 。 


8.2.3 泰勒 级 数 


泰勒 级 数 展开 “不妨 把 要 最 小 化 的 性 能 指数 用 函数 F(x) Rm, RP x 是 要 调整 的 参 

数 。 假 定性 能 指数 是 一 个 解析 函数 ， 它 的 各 级 导数 均 存在 。 那 么 ，F(x ) 可 以 表示 成 某 些 指 
定点 x” 上 的 泰勒 级 数 展开 : 

F(x) = F(x*)« Ara) 


(x-x*) 
XX 





LP) o (ie (8.1) 
通过 限定 泰勒 级 数 展开 项 的 数量 ， 可 以 用 泰勒 级 数 近似 估计 性 能 指数 。 例 如 设 
F(x) = cos(x) (8.2) 


FODE x" =O 点 的 泰勒 级 数 展开 式 为 
F(x)= cos(x) = cos(0) ~ sin(0)(x - 0) - F-cos(0)( x - 0)? 
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+ Bsin(0) (x - 0» e... 


(8.3) 
E L-late Xa 4 
F(x) 的 0 阶 近似 ( 仅 含 x 的 0 次 方 项 ) 是 
F(x) = Fyx)z21 (8.4) 
其 2 阶 近似 为 
F(x) ~ F(x) = 1-ta? (8.5) 
(注意 此 式 的 0 阶 近似 与 1 阶 近似 相等 ， 因 为 1 阶 导数 为 0。) 其 4 阶 近似 为 
F(x) ~ Fy(x) = EEEE EA (8.6) 


图 8-1 所 示 为 F(x) 及 其 三 个 近似 的 图 形 。 





图 8-1 余弦 函数 及 其 泰勒 级 数 近似 


从 图 中 可 以 看 出 ， 如 果 x 趋 近 于 x" =0， 所 有 的 近似 都 是 精确 的 。z 离 x “ 越 远 ， 则 只 
有 高 阶 近似 是 精确 的 。2 阶 近似 比 0 阶 近似 的 精度 范围 更 大 ，4 阶 近似 的 精度 范围 又 大 于 2 
阶 近似 的 精度 范围 。 式 (8.1) 可 以 说 明 这 种 现象 。 级 数 中 每 个 相 邻 的 后 继 项 都 包含 (x - x") 
的 高 次 项 ，x 越 趋 近 于 x, ， 这 些 项 将 按 几 何 级 数 减 小 。 

我 们 将 运用 这 种 性 能 指数 的 泰勒 级 数 近似 方法 ， 研 究 可 能 的 最 优点 的 邻 域内 性 能 指数 的 


特性 。 


RE fe HK By HHH BRR AHA Neural Network Design Demonstration Taylor 
Series (nnd8ts) 。 





向 量 的 情况 
神经 网 络 的 性 能 指数 并 不 仅 是 一 个 纯 量 x 的 函数 ， 它 是 所 有 网 络 参 数 ( 各 个 权 值 和 偏 置 
值 ) 的 函数 ， 参 数 的 数量 可 能 是 很 大 的 。 因 此 ， 需 要 将 泰勒 级 数 展开 形式 扩展 为 多 变量 形式 。 
考虑 下 列 n 元 函数 。 
F(x) = F(x1, x2, Xn) (8.7) 


这 个 函数 在 点 x* 的 泰勒 级 数 展开 为 
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FG) =F) + FOO! O eaaa tg POO] Ca 2) 
| 
1 9 


+ ae Ga = xf ag = ad) e 


梯度 ” 替 森 矩阵 ”这 个 表达 式 有 些 繁杂 ， 把 它 写 成 矩阵 形式 会 清晰 些 ; 


F(x) = F(x') EVROT] (xc x) 
i ~ (8.9) 
thax) VC) ax) + 


这 里 VF(x) 为 梯度 ， 其 定义 为 
VF(x) = Ea F(x) 3 PO) xe Fo] (8.10) 


V2F (x) Wak, XE SO 








8 g? 
a4 ®) augu O 7 m F(x) 
32 2? 
V?F(x) = 35,25, © anh 09 UU S 2534, F0 (8.11) 
32 
25 RAD 3x, 3:35 F(x) 和 a1 (9 


5 HE Fah PRS FT EB HE THEO E EE. PODER FG 6 这 两 个 概念 的 实际 意义 。 


试验 二 元 函数 的 泰勒 级 数 展 开 请 用 Neural Network Design Demonstration Vector 
Taylor Series (nnd8ts2) 。 





8.2.2 方向 导数 
梯度 的 第 i 个 元 素 9F(x)/3x;， 是 性 能 指数 在 x; 轴 的 一 阶 导数 。 替 森 矩 阵 的 第 【个 
对 角 元 素 32 F (x) /0 x1 是 性 能 指数 正 沿 x; 轴 的 二 阶 导数 。 怎 样 求 函 数 在 任意 方向 上 的 一 阶 导 


数 ? 
方向 导数 ” 设 p 为 沿 所 求 导数 方向 上 的 一 个 向 量 ， 此 方向 导数 可 由 下 式 求 出 : 


T 
p YF (8.12) 
| p | 
Xt p 的 二 阶 导数 也 可 以 写成 
T 2 
p Y Fp (8.13) 
Il p Il? 


为 了 说 明 以 上 概念 ， 考 虑 函数 
F(x) = x? + 2x2 (8.14) 


ETE 


[ &5 | 
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假设 求 沿 向 量 p=[2 -1]" 的 方向 在 点 x* =[0.5 0.5]" 处 的 导数 。 首 先 求 在 x' 的 梯度 : 


9 | 
Fx, F9 2x5 1 
VF(x) + = 3 = 4 = B (8.15) 
x=x 3, F(x) || *2 Ji yoy” 
*2 x-X 


沿 方向 p 的 导数 也 可 求 出 ; 


p V F(x) [2 - ul; 


[0] 
I pli qa] o5 (8.16) 
iL-11| 


因此 函数 经 过 点 x “在 p 方 向 上 的 斜率 为 零 。 为 什么 会 是 这 个 结果 呢 ? 如 何 解释 这 种 现 
象 ? 考察 式 (8.12) 关 于 方向 导数 的 定义 就 能 发 现 其 分 子 部 分 是 方向 向 量 与 梯度 的 内 积 。 因 
此 ,任何 与 梯度 正 交 的 方向 上 的 斜率 都 为 零 。 

最 大 斜率 在 什么 方向 上 ? 当 方 向 向 量 与 梯度 的 内 积 最 大 时 斜率 最 大 ， 故 当 方 向 向 量 与 梯 
度 同 向 时 会 出 现 最 大 斜率 (注意 方向 向 量 的 长 度 对 此 没有 影响 ， 因 为 它 已 被 规格 化 。) 这 种 情 
况 在 图 8-2 的 F(x) 的 平面 轮廓 线 图 和 3-D 图 中 表露 无 遗 。 在 轮廓 图 中 ， 从 某 个 点 x 出 发 的 
5 个 向 量 方向 各 异 ， 各 个 向 量 的 一 阶 方向 导数 也 已 标示 出 来 。 沿 梯度 方向 的 导数 最 大 ， 而 与 
梯度 正 交 的 方向 上 的 导数 为 零 (与 轮廓 线 相 切 )。 
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图 8-2 二 次 函数 及 其 方向 导数 


试验 方向 导数 请 用 Neural Network Design Demonstration Directional Derivatives 
(nnd8dd) 。 





8.2.8 极 小 点 


回忆 一 下 ， 性 能 学 习 的 目的 是 使 性 能 指数 得 到 优化 。 本 节 将 定义 最 优点 的 涵义 。 设 性 能 
指数 的 极 小 点 即 最 优点 。 对 于 最 大 化 问题 很 容易 修改 此 定义 。 

强 极 小 点 BA xh F(x) 强 极 小 点 ， 如 果 存 在 某 个 纯 量 5>0， 使 得 当 5> ] Axl} >0 
时 ， 对 所 有 Ax 都 有 F(x* ) < F(x”+ Ax) RZ. 
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Bagi, M—-MER)DAHRBERA BAER) DERE F(x)B A. 

全 局 极 小 点 ” 称 点 六 为 F(x) 的 惟一 的 金 局 极 小 点 ， 如 果 F(x" ) < F(x* +Ax) 对 所 有 
Ax 0 都 成 立 。 

对 于 一 个 强 极 小 点 x* ， 在 x* 较 小 的 邻 域 之 外 可 能 会 存在 比 F(x") BUD HR, Wx X 
称 为 局 部 极 小 点 。 对 于 一 个 全 局 极 小 点 ，F (xX) 在 参数 空间 内 任何 其 他 点 的 值 都 比 Fx" ) 大 。 

BRDA REx 为 F(X) 的 弱 极 小 点 ， 如 果 它 不 是 一 个 强 极 小 点 ， 且 存在 某 个 纯 量 8 
> 0， 使 得 对 于 所 有 ò> || Axl| >0 的 Ax 都 有 F(x") < F(x" + Ax) RZ. 

从 一 个 弱 极 小 点 无 论 向 什么 方向 移动 ， 函 数值 不 会 减少 ， 但 可 能 沿 某 些 方向 的 值 不 变 。 

例如 ， 考 虑 下 列 纯 量 函数 : 

F(x) 233 - T2 - T 46 (8.17) 


图 8-3 所 示 为 该 函数 图 象 。 注 意 ; 大 约 在 - 1.1 和 1.1 ARR, BRACE 
点 的 局 部 邻 域内 都 增 大 。1 .1 处 的 点 是 全 局 最 小 点 ， 因 为 没有 其 他 点 的 函数 值 比 该 点 的 函数 
值 更 小 。 

这 个 函数 不 存在 弱 极 小 点 。 为 了 说 明 弱 极 小 点 我 们 在 下 面 举 一 个 二 维 的 例子 。 
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图 8-3 局 部 极 小 点 和 全 局 极 小 点 举例 


现在 考虑 向 量 情形 。 首 先 考虑 下 列 函数 : 
F(x) 2(x4- xi) 54 Bxiqxq — zi + 42 3 (8.18) 

轮廓 线 图 ”图 8-4 为 该 函数 的 轮廓 线 图 (函数 值 为 常数 时 的 一 系列 曲线 ;和 3-D 曲面 图 
(函数 值 小 于 12)。 可 以 看 出 函数 有 两 个 强 局 部 极 小 点 ， 一 个 在 (- 0.42，0.42)， 一 个 在 
(0.55$，- 0.$5$)。 全 局 极 小 点 为 (0.$S5，- 0.55)。 

鞍点 该 函数 在 ( - 0.13，0.13) 的 点 有 其 他 有 趣 的 特点 。 由 于 在 该 点 邻 域内 曲面 的 形 
状 ， 它 称 为 一 个 鞍点 (saddle point)。 它 的 特点 在 于 : 沿线 x, = - x2 该 鞍点 为 一 个 局 部 极 大 
点 ， 但 沿 一 条 与 此 线 垂 直 的 线 它 又 是 局 部 极 小 点 。 在 例题 P8.2 和 P8.5 中 我 们 将 详细 讨论 
这 种 情况 。 
在 Neural Network Design Demonstration Vector taylor Series (nnd8ts2) 中 也 使 用 
了 这 个 函数 。 





作为 最 后 一 个 例子 ， 考 虑 下 面 的 函数 ; 
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图 8-4. 极 小 点 和 鞍点 的 向 量 实例 


F(x) = (x? —- 1.5x4x3 + 2x2) x1 (8.19) 
图 8-5 给 出 了 这 个 函数 的 轮廓 线 图 和 3-D 图 。 可 以 看 出 沿 x, = 0 的 任意 点 都 是 弱 极 小 点 。 


(ON i 
me i 
p" MN d jl 














图 8-5 弱 极 小 点 实例 


8.2.4 优化 的 必要 条 件 

定义 了 最 优点 ( 极 小 点 ) 后 ， 必 须 给 出 这 种 点 需要 满足 的 条 件 。 这 里 还 要 用 到 泰勒 级 数 
(89; 展开 来 推导 这 些 条 件 ; 
F(x) = F(x* + Ax) = F(x") SU PO) Ax 


(8.20) 
+ lax! ViF(x) MM. Tee 
此 处 Ax-2x-x' (8.21) 
1. 一 阶 条 件 
如 果 || Ax || 很 小 , 则 式 (8,20) 中 的 高 阶 项 可 以 省 略 ， 有 PCx) 的 近似 表达 式 
F(x* + AX) = F(x') + VFO)" ex (8.22) 


要 使 x" 为 极 小 点 ， 则 要 使 函数 在 Axe 0 时 增 大 或 不 减 小 。 要 实现 这 个 目标 ， 则 式 
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(8.22) 中 的 第 二 项 不 能 为 负 ， 即 


VF (x)? «Ax 20 (8.23) 
X-X 
但 是 ， 如 果 这 一 项 为 正 ， 即 
VET «Ax > 0 (8.24) 
X-X 
则 可 推导 出 : 
F(x' - Ax) = F(x") - VFGOT| — «Ax < F(x") (8.25) 


这 将 导致 自 相 矛 盾 ， 因 为 x 为 一 个 极 小 点 。 所 以 要 使 式 (8.23) 成 立 ， 式 (8.24) 就 不 能 
成 立 ， 惟 一 选择 只 有 


VF(x)?| _ «Ax = 0 (8.26) 
该 式 对 所 有 的 Ax 都 必须 成 立 ， 即 
VF(x)| ee -0 (8.27) 


驻 点 ”所 以 ， 一 个 极 小 点 处 的 梯度 一 定 为 零 。 这 就 是 局 部 极 小 点 的 一 阶 必 要 条 件 ( 不 是 
充分 条 件 )。 所 有 满足 式 (8.27) 的 点 称 为 驻 点 (stationary point). 

2. 二 阶 条 件 

设 有 一 个 驻 点 x* 。 由 于 F(x) 在 驻 点 的 梯度 为 0， 则 泰勒 级 数 展 式 为 


F(x" + Ax) = F(x") + Ax? VF (x) SAX + ... (8.28) 
X-X 


同 前 面 一 样 ， 这 里 只 考虑 那些 在 x" 的 很 小 的 邻 域内 的 点 ， 以 使 [| Ax | 很 小 且 F(x) 能 用 式 
(8.28) 的 前 两 项 近似 。 所 以 ， 如 果 
AxT V2F (x) MNT. > 0 (8.29) 


则 在 x* 将 存在 强 极 小 点 。 
正定 矩阵” 半 正定 和 矩阵 ”要 使 此 式 对 任意 Axz0 成 立 ， 菇 森 和 矩阵 必须 为 正定 矩阵 。 
(根据 定义 ,一 个 正定 矩阵 定义 为 : 对 任意 的 向 量 2250 有 
Z’ AZ > 0 (8.30) 
如 果 对 任意 向 量 z， 有 
. Z7Az<0 (8.31) 
则 称 A 为 半 正 定 矩 阵 。 可 以 通过 检验 矩阵 的 特征 值 来 检验 这 些 条 件 。 如 果 所 有 特征 值 为 正 ， 
则 和 抢 阵 为 正定 矩阵 ;如 果 所 有 特征 值 非 负 ， 则 和 抢 阵 为 半 正 定 矩 阵 。) 
充分 条 件 ”一 个 正定 的 赫 森 矩阵 是 一 个 强 极 小 点 存在 的 二 阶 充分 条 件 ， 但 不 是 必要 条 
件 。 如 果 泰 勒 级 数 的 二 阶 项 为 零 ， 但 三 阶 项 为 正 ， 仍 可 能 存在 强 极 小 点 。 所 以 强 极 小 点 存在 
的 二 阶 必 要 条 件 是 赫 森 矩阵 为 半 正 定 矩 阵 。 
为 了 说 明 这 些 条 件 ， 考 虑 下 列 二 元 函数 ， 
F(x) = xf + x} (8.32) 


为 了 求 出 驻 点 ， 先 求 梯度 
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— 4xj 
| 8-11 | V F(x) -| | = 0 (8.33) 
2x» 
故 只 有 惟一 驻 点 x”= 0。 现 在 来 求 二 阶 条 件 ， 替 森 矩 阵 为 
2 7 12x7 0 7 0 0 
v rl -| ; li | (8.34) 


这 是 一 个 半 正 定 和 矩阵 ， 即 x" = (0 为 强 极 小 点 的 必要 条 件 存在 。 这 里 无 法 从 一 阶 和 二 阶 条 
件 确 定 该 点 为 一 个 极 小 点 ， 但 这 种 可 能 性 是 存在 的 。 事 实 上， 尽管 这 里 替 森 和 矩阵 是 半 正 定 
的 , 但 x* =0 仍 是 一 个 强 极 小 点 ， 只 是 目前 无 法 从 已 讨论 的 条 件 证 明 。 

综 上 所 述 ，x ”为 F(x) 的 强 极 小 点 或 弱 极 小 点 的 必要 条 件 是 : 


VFGO| + 2 0 和 V2F(x)| 。， 为 半 正 定 
xX-X X-X 
x' 为 F(x) 的 强 极 小 点 的 充分 条 件 是 : 

VF(x)| e s 0 和 V2F(x)| 。 为 正定 








8.2.5 二 次 函数 


本 节 介绍 一 种 通用 的 性 能 指数 一 一 二 次 画 数 。 这 不 仅 因 为 二 次 函数 应 用 广泛 ， 而 且 还 因 
为 在 很 小 的 邻 域内 ， 特 别 是 在 局 部 极 小 的 附近 ， 许 多 一 数 可 由 二 次 函数 来 近似 。 所 以 有 必要 
花 一 些 时 间 来 考察 二 次 函数 的 特性 。 

二 次 函数 ”二 次 函数 的 一 般 形式 是 


F(x) = Fx7AK +d'x+ce (8.35) 
这 里 A 为 对 称 和 矩阵 。( 如 果 和 矩阵 非 对 称 ， 则 可 由 产生 同一 F(x) 的 另 一 对 称 和 矩阵 置换 。 可 试 
一 下 !) 
求 该 函数 的 梯度 ， 需 用 到 下 列 梯度 的 性 质 : 
V (h?x) =V (xh) =h (8.36) 


8-12) 此 处 h 为 一 常数 向 量 ， 且 
Vx'Qx = Qx + Q7x = 2Qx 〈Q 为 对 称 和 矩阵 ) (8.37) 
现在 可 以 计算 F(x) 的 梯度 : 
VF(x) = Ax «d (8.38) 
同 理 可 求 赫 森 矩阵 ; 
V2F(x) = A (8.39) 
二 次 函数 的 所 有 的 高 阶 导 数 为 零 ， 所 以 该 函数 的 泰勒 级 数 展开 的 前 三 项 即 该 函数 的 精确 
表达 ( 见 式 (8,20))。 也 可 以 说 所 有 的 解析 函数 在 一 个 很 小 的 邻 域内 ( 即 当 | Ax | 很 小 时 ) 都 
与 二 次 函数 类 似 。 
赫 森 的 特征 系统 
现在 研究 二 次 郴 数 的 一 般 形 态 。 研 究 赫 森 和 矩阵 的 特征 值 和 特征 向 量 豆 以 得 到 二 次 函数 的 
许多 性 质 。 考 虑 以 原点 为 驻 点 且 其 值 为 0 的 二 次 函数 : 
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F(x) = jx Ax (8.40) 
如 果 把 基 进 行 适 当 的 变换 ,会 使 函数 的 形态 更 加 清楚 ( 见 第 6). AREER A 的 特 


征 向 量 作为 新 的 基 向 量 。 由 于 A 为 对 称 和 矩阵 ， 所 以 其 特征 向 量 两 两 正 交 ( 见 [Brog91])。 所 
以 可 用 特征 向 量 作为 列 向 量 构成 一 个 和 式 (6.68) 一 样 的 矩阵 ; 


B-[z z … z] (8.41) 
VB PERI AE THI RE: 
B! = BT (8.42) 
(假定 特征 向 量 已 被 规格 化 。) 
进行 基 变 换 ， 以 使 特征 向 量 成 为 基 向 量 ( 见 式 (6.69))， 新 的 矩阵 A 为 
M 0 . 0 
a’ = [BrAB] = | ° N B ° = 人 (8.43) 
0 0 A 
其 中 入 ; 为 A 的 特征 值 。 上 式 也 可 写成 
A = BAB’ (8.44) 
我 们 将 用 方向 导数 的 概念 说 明 A 的 特征 值 和 特征 向 量 的 物理 意义 以 及 如 何 确定 二 次 函 


数 的 曲面 特性 。 
由 式 (8.13) 知 F(x) 在 癌 量 p 方 向上 的 二 阶 导数 为 
p'V/F(xX)p  p'Ap 


= 8. 
ipl? ^ ipi? (8.45) 





现在 定义 
p= Be (8.46) 


这 里 ce 表示 基于 A 的 特征 向 量 的 向 量 p( 见 式 (6.28) 及 其 后 的 讨论 )。 用 这 些 概 念 及 式 
(8.44) ， 可 将 式 (8.45) 重 写成 


lici 
p’Ap  c'B'(BAB')Be  c'Ac - 之 i (8.47) 
lpl2 ¢"B’Be = ce ws, 

p 2d 


这 个 结果 包含 若干 有 用 的 事实 。 首 先 ， 这 个 二 阶 导 数 是 特征 值 的 加 权 平均 。 所 以 它 总 不 
大 于 最 大 的 特征 值 ， 或 不 小 于 最 小 特征 值 。 换 句 话说 ， 


T 
Amin < ME "zu (8.48) 
p 
二 阶 导 数 在 什么 条 件 下 与 最 大 特征 值 相 等 ? 如 果 选 择 
P = Zmar (8.49) 


这 里 zo 是 最 大 特征 值 ;os 的 特征 向 量 ， 其 结果 如 何 ? 此 时 向 量 为 


c = B’p = Bz =[0 0 010 > 0)" (8.50) 


c 仅 在 与 最 大 特征 值 (例如 ，cmo: = 1) 相 应 的 位 置 存在 ， 因 为 特征 向 量 是 正 交 的 。 
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用 zs 代替 式 (8.47) 中 的 p， 风 有 
| Zmar 1? 3E 


所 以 ， 在 最 大 特征 值 的 特征 向 量 方向 上 存在 最 大 的 二 阶 导数 。 事 实 上 在 每 个 特征 向 量 方 
向 的 二 阶 导数 都 等 于 相应 的 特征 值 。 在 其 他 方向 上 二 阶 导 数 等 于 特征 值 的 加 权 平 均值 。 特 征 
向 量 方向 上 的 相应 特征 值 即 是 在 该 方向 上 的 二 阶 导数 。 

特征 向 量 定义 了 二 次 交叉 项 为 零 的 坐标 系 。 特 征 向 量 被 
称 为 函数 轮 廊 线 的 主轴 。 图 8-6 所 示 为 这 些 概念 在 二 维 时 的 
情形 。 该 图 表明 第 一 特征 值 小 于 第 二 特征 值 ， 所 以 在 第 一 特 
征 向 量 的 方向 上 的 曲率 半径 (二 阶 导数 ) 最 小 。 这 意味 着 在 此 
方向 上 的 轮廓 线 之 间 的 距离 更 大 。 在 第 二 特征 向 量 方向 上 存 
在 最 大 的 曲率 半径 ， 所 以 在 此 方向 上 轮廓 线 之 间距 离 更 小 。 ( 

注意 ; 在 图 8-6 中 仅 当 两 个 特征 值 同 号 时 才 有 效 ， 以 确 
保 要 么 存在 一 个 强 极 小 点 ， 要 么 存在 一 个 强 极 大 点 。 本 例 中 
的 轮廓 线 都 是 椭 园 。 后 面 我 们 将 讨论 另外 的 例子 ， 其 中 之 一 图 86 特征 向 量 的 二 维 情形 
的 特征 值 异 号 ， 另 外 一 个 特征 值 为 零 。 

例 一 ， 考 虑 下 列 函 数 ， 


(8.51) 


= 入 max 


ZI 
(Amn) 


2 0 
F(x) = xi T xi z lx |: (8.52) 


0 2 





替 森 矩阵 及 其 特征 值 和 特征 向 量 为 


2 0 1 0 
V?F(x) -| ME = 2,2 -| -2 (8.53) 


(实际 上 任何 两 个 相互 独立 的 向 量 都 可 以 成 为 本 例 中 的 特征 向 量 。 这 里 的 特征 值 为 多 重 特征 


值 ， 其 特征 向 量 为 一 个 平面 。) 
因为 所 有 的 特征 值 相 等 ， 所 以 在 各 个 方向 上 的 曲率 相等 ， 函 数 的 轮廓 线 为 圆 。 图 8-7 所 


示 为 这 个 函数 的 轮廓 线 图 和 3-D 图 (一 个 圆 形 空洞 )。 








图 8-7 IUE 
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现在 考虑 另 一 个 具有 相 蜡 特征 值 的 例子 ， 其 二 次 函数 为 : 


F(x) = x? + XIX2+ x3 = ie ME (8.54) 
赫 森 矩阵 及 其 特征 值 和 特征 向 量 为 
2 1 1 1 
viro)» [7 snas aa-|| (8.55) 


(第 6 章 讨论 过 特征 向 量 不 是 惟一 的 ， 它 们 可 以 加 上 任意 系数 变 成 很 多 个 。) 这 里 ， 在 us 方向 

上 曲率 最 大 ， 所 以 在 此 方向 上 轮廓 线 密度 较 大 。 图 8-8 所 示 为 该 函数 的 轮廓 线 图 及 3-D 图 
(一 个 椭 圆 ER o 
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图 8-8 HEA ie 
如 果 特 征 值 异 号 会 发 生 什 么 现象 ? 考虑 下 列 函 数 ， 


F(x) =- lat - un - ld = 了 | PM (8.56) 
赫 森 矩阵 及 其 特征 值 及 特征 向 量 分 别 是 
-0.5 -1.5 -1 -1 
V*FG) = ae MAE "bn -| 1 EERTE IH (8.57) 


第 一 个 特征 值 为 正 ， 故 在 z 方向 上 的 曲率 为 正 。 第 二 个 特征 值 为 负 ， 故 在 y 方向 上 的 
曲率 为 负 。 由 于 第 二 个 特征 值 的 绝对 值 大 于 第 一 个 特征 值 的 绝对 值 ， 故 在 2 方向 上 的 轮廓 


REW. 
8-9 SiR RAR ALA 3-D 图 (为 一 个 体 长 的 或 形 )。 注 意 驻 点 
x" = [| (8.58) 


REA MEB/ A, BDARARSOEBEIEIERE. MAF EMRE RS, Bae RE 
的 ( 见 [Brog91])， 因 而 其 驻 点 为 鞍点 。 在 第 一 个 特征 向 量 ( 正 的 特征 值 ) 上 该 点 为 函数 的 极 小 
S, 但 是 在 第 二 个 特征 向 量 方向 上 (特征 值 为 负 )， 该 点 是 函数 的 极 大 点 。 

最 后 一 个 例子 : 存在 一 个 为 零 的 特征 值 。 其 函数 为 


1 -1 
F(x) = Lal- ume ga -hal | |x (8.59) 


i 8-16 


8-17 
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图 8-9 ”延伸 的 鞍 形 
赫 森 矩阵 及 其 特征 值 和 特征 向 量 为 


V2F(x) = l^ "I = 2,z = n | wy = 0,% = L1 (8.60) 


第 二 个 特征 值 为 零 ， 故 在 也 方向 上 曲率 为 零 。 图 8-10 所 示 为 该 函数 的 轮廓 线 图 和 3-D 
图 (一 个 驻 点 止 权 )。 本 例 中 的 赫 森 和 矩阵 是 半 正 定 的 。 故 在 与 第 二 个 特征 向 量 对 应 的 直线 
X1 = X2 (8.61) 
上 存在 一 个 弱 极 小 点 。 
对 于 二 次 函数 而 言 ， 强 极 小 点 存在 的 条 件 是 赫 森 矩阵 必须 是 正定 的 。 对 于 高 阶 函 数 而 言 ， 
8-18) 当 幸 森 和 矩阵 为 半 正 定时 ， 也 可 能 存在 一 个 强 极 小 点 。( 见 前 面 的 “ 极 小 点 "一 节 中 的 讨论 。) 
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图 8-10 HAOR 


试验 其 他 二 次 函数 请 用 Neural Network Design Demonstration Quadratic Function 
(nnd8qf) 。 





现 将 二 次 函数 的 一 些 特点 小 结 如 下 : 

1) 如 果 替 森 和 矩阵 的 所 有 特征 值 为 正 ， 则 函数 有 一 个 强 极 小 点 。 
2) MRR SHEA PAR, WA MERA 
3) 如 果 赫 森 矩 阵 的 特征 值 有 正 有 负 ， 则 函数 有 一 个 鞍点 。 
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4) M RPE REA ETS REENEN, (RARER SE, WRAZ LAA 
点 ( 见 图 8-10), 要么 没有 驻 点 ( 见 例题 P8.7)。 
5) 如 果 赫 森 和 矩阵 的 所 有 特征 值 为 非 正 ， 但 某 些 特征 值 为 零 ， 则 冰 数 要 么 有 一 个 弱 极 大 
点 ， 要 人 么 没有 驻 点 。 
注意 ; 在 这 些 讨论 中 为 了 使 问题 简化 ， 我 们 假设 二 次 函数 的 驻 点 在 坐标 原点 ， 而 且 函 数 
在 该 点 的 函数 值 为 零 。 这 要 求 式 (8.35) 中 的 d 项 和 < 项 都 为 零 。 如 果 c 不 等 于 零 ， 则 函数 只 
在 每 个 点 上 增 大 。 倍 ， 轮 廊 线 形状 不 会 变化 。 当 d 不 等 于 零 ,但 A 可 逆 时 ， 轮 廓 线 的 形状 
TE, 但 函数 的 驻 点 移 到 





x* =-A-'d (8.62) 
如 果 A 不可逆 (存在 为 零 的 特征 值 ) 且 d 不 为 零 ， 则 不 存在 驻 点 ( 见 例题 P8.9)。 8-19 
8.3 小 结 
HAR 
F(x) = F(x") + VRQ)? e (x - x") 
+ ia -x' UNE. os (x-x') +! 
梯度 R 
VF(x) = EX 5, FQ) Ut JF (x) | 
IEE - 
32 a? 3? 
2,F(9 33,44; 9 Us 34,04, (9 
EL a? 2? 
V?F(Xx) z 33,54, (9 a; F9 3x3, (x) 
a 39? 
PEPA ) Taaa (x) UU a, 09 - 
方向 导数 
— BA FR 
p! V F(x) 
Il pl 
二 阶 方向 导数 
p” V?F(X)p 
Il pll? 8-20 
极 小 点 
强 极 小 点 


称 x* 为 F(X) 的 一 个 强 极 小 点 ， 如 果 存在 纯 量 3> 0， 使 得 F(x) < F(x+ Ax) 对 所 有 的 
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Ax(8» || x || >0) 都 成 立 。 

全 局 极 小 点 

称 x* 为 F(x) 的 惟一 全 局 极 小 点 ， 如 果 P(x) < F(x+ Ax) 对 所 有 的 Axz0 都 成 立 。 
弱 极 小 点 | 


称 x* 为 所 (x) 的 一 个 弱 极 小 点 ， 如 果 它 不 是 一 个 强 极 小 点 ， 且 存在 纯 量 8> 0， 使 对 于 任 
意 的 满足 5> || Ax || >0 的 Ax, MA F(x)s F(x* Ax). 





最 优化 的 必要 条 件 
一 阶 条 件 
VF(x) | * 20 ( 驻 点 ) 
X=X 
二 阶 条 件 
ViFGO|. ，， > 0 ( 赫 麻 短 阵 为 半 正定 ) 
二 次 函数 
F(x) = lx'Ax +drx+e 
梯度 
VF(x) = Ax+d 
a HR EE 
V?F(x) 2A 
方向 导数 
T 
p Ap 
8-21 Àmin * | p | 2 <= À max 
8.4 例题 


P8.1 图 8-1 Pray ARE RE x* = 0 的 三 个 近似 。 试 在 点 * 22 重复 该 过 程 。 


解 
将 要 作 近 似 的 函数 为 

F(x) = cos(x) 
F(x)TEH x* = 2/2 的 泰勒 级 数 展开 为 


F(x)= cos(x) = cos( =) - sin( Z) (x 一 
+ sin = 


oes eode 
F(x ) BE BLUE 


— 
u N 
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F(x) = Fo(x) = 0 

F(x) 的 一 阶 近似 是 

F(x) = Fi(x) =- (+ -ij- $-5 
GER: 由 于 二 阶 导 数 为 零 ， 故 二 阶 近 似 等 于 一 阶 近似 。) 
F(x) 三 阶 近 似 是 ; 
F(x) ~ Fx) =- (x - E) 1(« - £) 

图 8-11 所 示 为 这 三 个 近似 的 图 象 。 这 里 的 零 阶 近似 非常 差 ， 而 一 阶 近似 在 一 个 适当 的 
范围 内 是 精确 的 。 将 这 一 结果 与 图 8-1 对 比 发 现 ， 在 那 种 情况 下 ， 我 们 在 一 个 局 部 极 大 点 
x”=0 展开， 所 以 一 阶 导数 为 零 。 
检查 泰勒 级 数 在 其 他 点 的 展开 请 用 Neural Network Design Demonstration Taylor 


Series ( nndBts) 。 [822] 








图 8-11 在 x=x/2 的 余弦 函数 近似 


P8.2 回 到 图 8-4 所 示 的 薄 数 。 已 知 该 函数 有 两 个 强 极 小 点 。 求 该 沙 数 在 两 个 极 小 点 的 


泰勒 级 数 展开 。 
解 
函数 的 表达 式 为 
F(x) = (xà 一 x1)* t 8x1 x —- Xi + X2 + 3 


欲求 其 二 阶 泰 勒 级 数 展 开 ， 必 须 先 求 出 F(x) 的 梯度 及 赫 森 矩阵 。 梯 度 为 


9 
a4, F(x) PM 


VF(x) z 
4( x4 一 xi + 8x41 


RRA 


V?F(x) = 


| 8-23 | 
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12( x; - x1)? -12(x;- xı)” +8 
“| = 12(x3- x1? +8 12(x5 ~ x1)? 


Ex =[-0.42 0.42] 有 一 个 强 极 小 点 , TE x 2 [0.55 -0.55]7 58 — REUS 
点 。 在 这 两 点 对 R(x) 进 行 二 阶 泰勒 级 数 展开 : 


Fi(x)= F(x!) + VF(x)? 


nd EIUS e ee 


可 将 它 简化 为 


Fl(x) = 4.49 -[- 3.7128 3.7128]x + FX 


同 理 可 得 x^ 点 的 展开 为 


F?(x) = 7.41- [11. 





(x) laca vrQ| ax» 
x=X X-X 


| 





0.42 -0.42 8.42 0.42 


1 | 8.42 | 
-0.42 8.42 


1 | 14.71 "em 


781 -11.781]x + + 
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图 8-12 HAAR BARRA EU AR 
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图 8-13 例题 P8.2 的 函数 F(x) 





图 8-14 例题 P8.2 的 函数 F(x) 
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P8.3 BE PHN BRM, 求 在 x=[0 0] 处 与 轮廓 线 相 切 的 切线 方程 。 
F(x) z (2 * 141)? t 5(1 一 xi- x2)? 


解 


解决 这 个 问题 要 用 到 方向 导数 。 严 (x) 沿 一 条 轮廓 线 的 切线 方向 的 导数 是 什么 ”由 于 轮 
廓 线 是 函数 值 不 变 的 线 ， 则 沿 轮廓 线 的 F(x) 的 导数 为 零 。 所 以 设 方向 导数 为 零 ， 可 求 轮 廊 


线 切 线 方程 。 
首先 求 梯度 : 


VF(x) = | 


1E x' =[0 0]7, 有 


| 


2(2 + x1) + 10(1 - x, + x3)(- "| 
10(1 - x, - x4)(- 2x,) 


-6412z, + 1022 | 


- 20x, + 20%, "2 + 20x3 


e [-6 
vr» = | | 


由 于 F(x) 在 向 量 p 方 向 上 的 导数 是 


所 以 欲求 穿 过 点 x’ = [0 0]7 且 导 数 为 零 的 切线 方程 ， 可 以 设 在 Ax 方向 的 方向 导数 的 分 子 


为 零 : 


p! V F(x) 
ll pl 


AxTIVF(x" ) = 0 


这 里 Ax=x-x*。 在 这 种 情形 下 有 


-6 
v| | =0 Kx, = 0 
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AERA ERS RARBG A Neural Network Design Demonstration 
Vector Taylor Series (nnd8ts2) 。 
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这 个 结果 见 图 8-15. 
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图 8-15 例题 P8.3 中 F(x) 的 图 


P8.4 求 下 列 四 阶 多 项 式 的 所 有 驻 点 并 检验 它们 是 否 为 极 小 点 。 
F(x) = ELTE *2x +4 
S 
BORGER, SED F(x) RAZ: 
fF (x) = 4x3 2x1 4x 4220 


使 用 MATLAB 求 这 个 多 项 式 方程 的 根 ， 


coef=[4 -2 -4 2]; 
stapoints = roots(coef); 
stapoints’ 
ans = 

1.0000 - 1.0000 0.5000 


现在 求 以 上 各 点 处 的 二 阶 导 数值 。F(x) 的 二 阶 导数 为 
3 FG) = 12x? -4x -4 
各 驻 点 的 二 阶 导数 为 
(Gra - 4) [Sc D- 12) (rto. --3) 

所 以 在 1 和- 1 处 存在 强 局 部 极 小 点 (因为 二 阶 导数 为 正 )， 在 0.5 处 存在 强 局 部 极 大 点 

(因为 二 阶 导数 为 负 )。 为 了 找 出 全 局 极 小 点 ， 分 别 求 出 在 两 个 局 部 极 小 点 的 函数 值 ; 
(F(1) = 4.333), (F(- 1) = 1.667) 

故 全 局 极 小 点 在 x = - 1。 但 能 否 肯定 这 一 点 是 全 局 极 小 点 ? 当 * 一 或 “一 - om 时 会 

发 生 什么 现象 ”本 例 中 ， 由 于 x 最 高 次 项 的 系数 大 于 零 旦 该 项 为 偶 次 项 (x4), 当 >to 
时 F(x) 都 趋向 w ， 故 可 以 肯定 在 x = - 1 处 存在 全 局 最 小 。 函 数 图 见 图 8-16。 
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图 8-16 例题 P8.4 的 F(x) 图 


P8.5 例题 P8.2 中 函数 有 三 个 驻 点 : 


xl =- [| - NAMES -| 0.55 | 
0.42 0.13 - 0.55 
试 检验 这 些 驻 点 是 否 为 局 部 极 小 点 。 
解 
从 例题 P8.2 FT APRA F(x) ARBRE 
7 2F(x) - | 12(x4 - xi)? -12(x;- x1)? +8 
-12(x;- xı) +8 12( x2 - x1)? 





和 矩阵 的 正定 性 可 由 特征 值 确定 。 如 果 所 有 特征 值 为 正 的 ， 则 和 矩阵 为 正定 矩阵 ， 即 存在 一 
个 强 极 小 点 。 如 果 特 征 值 非 负 ， 则 矩阵 为 半 正 定 阵 ， 即 要 么 存在 强 极 小 点 ， 要 么 存在 一 个 弱 
极 小 点 。 如 果 特 征 值 一 正 一 负 ， 则 和 矩阵 为 不 定型 ， 存 在 一 个 鞍点 。 
在 x! BARS EE IY 
8.42 -0.42 
VF) = EM 8.42 | 


该 矩阵 的 特征 值 是 - 
A, = 8.84, 28.0 - 


故 Xl! 一定 是 一 个 强 极 小 点 。 
ft x! 的 赫 森 矩阵 为 
0.87 on 


Vir = ° 13 0.87 


该 矩阵 的 特征 值 为 

à =-06.26， 和 = 8.0 
所 以 xi 一 定 是 一 个 鞍点 。 在 一 个 方向 上 的 曲率 为 负 ， 在 另 一 个 方向 上 的 曲率 为 正 。 负 的 曲 
率 在 第 一 特征 向 量 方向 上 ， 正 的 曲率 在 第 二 个 特征 向 量 的 方向 上 。 特 征 向 量 为 


-|| 


(注意 ， 这 与 我 们 在 8.2.3 节 的 讨论 一 致 。) 
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TE x! BL ERABER I 
vr] 9n 
- 6.71 14.7 
该 矩阵 特征 值 为 
à = 21.42, % = 8.0 
所 以 x? 是 一 个 强 极 小 点 。 
可 用 Neural Network Design Demonstration Vector Taylor Series (nnd8ts2) 检 验 这 
些 结果 。 





P8.6 现在 将 本 章 的 概念 用 于 一 个 神经 网 络 问题 。 见 图 8-17 所 示 的 线性 网 络 ， 设 该 网 络 
的 期 望 输入 /输出 为 ; 
Ipi = 2,G = 0.5), (p, == 1, (5 = 0)! 
试 确定 网 络 的 下 列 性 能 指数 函数 ; 
8-29 F(x) = (t ~ ai (x)? + (t2- a2(x))? 


输入 线性 神经 元 
oN OO 


p [Si 
b 


wy! 


a=purelin(wp+b) 


图 8-17 例题 P8 .6 的 线性 网 络 


;| 


确定 F(x) 的 步骤 如 下 : 首先 确定 性 能 指数 下 (x) 为 一 个 二 次 函数 ， 然 后 求 出 其 赫 森 矩阵 
的 特征 值 和 特征 向 量 ， 并 用 它们 描绘 函数 的 轮廓 线 图 。 
FE (x) 写成 参数 向 量 x 的 显 式 形式 : 


F(x) = et +e 


解 
该 网 络 的 参数 为 w 和 b， 构 成 参数 向 量 


x= 





其 中 
(ei = tl 一 (wp, 十 b)), Cez = to - (wp, + 5)) 
ict n] E RBH: 
F(x) = ele 
其 中 
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MEEA AT ES LA TOP X: 
F(x) = [t- Gx]'[t - Gx] = t^t - 2t" Gx + x'G'Gx 8-30 


与 式 (8.35) 
F(x) = 1x'Ax + d'x e c 
比较 ， 可 知 这 个 线性 网 络 的 性 能 指数 函数 是 二 次 函数 ， 且 
c = trt，d=-2G7t，A= 2G7G 
该 二 次 函数 的 梯度 由 式 (8.38) 得 给 出 ; 
VF(x) = Ax + d = 2G’Gx - 2G’t 


使 梯度 为 零 的 点 即 函数 的 驻 点 (也 是 函数 轮廓 线 的 中 心 点 ): 
x" 2- Ald = [G7G]-!G?t 


s-[ de abe Pe 


s 1) J 1 
* = G? -1! Tt z | | | | = | 
x [G^G)"G 1 2 0.5 0.167 


(所 以 网 络 最 优 参 数 是 w 20.167, b 20.167.) 
由 式 (8.39) 得 二 次 函数 的 赫 森 矩阵 为 
10 2] 


- A 2G'G = 
VF) = A = 267G = | 4 
为 了 描 出 轮廓 线 ， 须 先 求 出 赫 森 矩阵 的 特征 值 和 特征 向 量 。 在 这 种 情形 下 有 : 


[o eo [s = Loa) Mes d DII] 


所 以 x* 是 一 个 强 极 小 点 。 同 时 ， 由 于 这 里 的 第 一 个 特征 值 比 第 二 个 特征 值 大 ， 所 以 轮 
廊 线 是 椭圆 ， 其 长 轴 在 第 二 个 特征 向 量 方向 上 。 轮 廓 线 的 中 心 点 在 x"” o WME 8-18 所 示 。 8-31 
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图 8-18 例题 P8.6 的 函数 图 象 


8-32 
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P8.7 本 例 讨论 一 个 设 有 驻 点 的 二 次 函数 ， 该 函数 为 
F(x) = [1- xe der! s 


试 描 出 该 函数 的 轮廓 线 图 。 
解 
同 例题 P8 .6 一 样 ， 我 们 需要 先 找 出 赫 森 窍 阵 的 特征 值 和 特征 向 量 ， 由 函数 表达 式 知 其 


RIA 
V?F(X) = A= | ‘| (8.63) 


其 特征 值 和 特征 向 量 为 


fos oe [hoe E) 


第 一 个 特征 值 为 零 ， 因 此 在 第 一 个 特征 向 量 方向 上 曲率 为 零 。 第 二 个 特征 值 大 于 零 ， 因 
此 在 第 二 个 特征 向 量 方向 上 的 曲率 为 正 。 如 果 F(x) 没 有 线性 项 ， 则 F(x) 的 图 象 为 如 图 8-10 
所 示 的 一 个 驻 点 目 槽 。 本 例 中 我 们 必须 确定 线性 项 是 否 产生 沿 止 档 方 启 ( 第 一 个 特征 向 量 的 


方向 ) 的 斜坡 。 
线性 项 为 
Fin(x) [1 -1]x 
由 式 (8.36) 知 该 项 的 梯度 为 
vr) =| '. | 


这 表明 线性 项 在 这 个 梯度 方向 上 增加 最 快 。 由 于 本 例 中 二 次 项 曲率 为 零 ， 则 整个 函数 在 
这 个 方向 上 是 一 个 线性 的 斜坡 。 

所 以 F(x) 在 第 二 个 特征 向 量 方向 上 的 曲率 大 于 零 ， 而 在 第 一 个 特征 向 量 方 向 上 是 线性 
SHE. Bd 8-19 为 该 函数 的 轮廓 线 图 和 3-D 图 。 





图 8-19 例题 P8.7 的 下 降 凹 槽 的 函数 


对 于 任意 特征 值 为 零 的 赫 森 和 矩阵， 不 可 能 由 下 式 求 出 二 次 函数 的 驻 点 : 
x' =-A-id 
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因为 在 这 里 赫 森 矩阵 不 可 逆 。 这 可 能 意味 着 像 图 8-10 所 示 的 那样 存在 一 个 弱 极 小 点 ， 或 者 
如 本 例 中 的 情况 ， 没 有 驻 点 。 


8.5 ARA 


性 能 学 习 是 最 重要 的 神经 网 络 学 习 规则 之 一 。 通 过 性 能 学 习 ， 网 络 参数 能 得 到 调节 从 而 
优化 网 络 性 能 。 本 章 介绍 了 一 些 研究 性 能 学 习 规 则 必 备 的 工具 。 学 习 本 章 要 求 达到 |， 

Ci) 掌握 泰勒 级 数 展开 及 函数 的 近似 表 示 方 法 ; 

(ii) 求 方向 导数 ; 

(iii) 掌握 求 驻 点 的 方法 和 极 小 点 检验 方法 ; 

(iv) 画 二 次 函数 的 轮廓 线 图 形 。 


在 后 面 各 章 会 广泛 地 运用 这 些 概念 ， 包 括 性 能 学 习 ( 第 9 ~ 12 章 ) 和 递归 网 络 ( 第 17-18. 


章 )。 下 一 章 ， 我 们 将 以 本 章 的 概念 为 基础 设计 优化 性 能 函数 的 算法 。 然 后 在 后 面 的 各 章 中 
将 这 些 算法 用 于 神经 网 络 的 训练 。 
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习题 


E8.1 SR PHAM AR 
1 
3 3, 1 


X 一 可 一 了 
(i) R F(x%) 在 点 x= -0.5 的 二 阶 泰勒 级 数 近似 。 


F(x) = 


8-33 


8-34 


8-35 


8-36 


742 LI d ATE tf 





Gi) R F(x) 在 点 x 21.1 的 二 阶 泰勒 级 数 近似 。 
(ui) EE F(x ) 和 两 个 近似 并 讨论 它们 的 精确 度 。 
E8.2 考虑 下 列 二 元 函数 : 
F(x) = esiste s 52,410) 
(i) oR f(x) 在 点 x=[00]7 的 二 阶 泰勒 级 数 近 似 。 
(ii) 求 该 近似 的 驻 点 。 
(ii) R F(x) BUSES GERE F(x) 的 指数 由 二 次 函数 组 成 )。 
(iv) 说 明 两 个 驻 点 的 区 别 。( 用 MATLAB 画 出 两 个 函数 图 形 。) 
E8.3 在 点 x= [1 1]7 处 求 下 列 函数 在 方向 p=[ -1 1]5 上 的 一 阶 和 二 阶 方向 导数 : 


(4) FG) eZ il - 6212 - 23 
(d) F(3)25x1-6xix;-5x244x;4x; 


(di) F(x) -24i-1n + 3x3+2x1~ x2 


(iy) F(x) = —F (Txt + 120, 29-243) 
E8.4 对 函数 


F(x) 三 epee 


Ci) 求 驻 点 ; 
(ii) 检验 驻 点 是 否 是 极 小 点 和 极 大 点 ; 
(iii) 用 MATLAB 画 出 函数 图 象 ， 验 证 你 的 答案 。 
E8.5 已 知 下 列 二 元 函数 : 
F(x) = (xi x3)5- 12xix2+ xq + X2+1 
(i) 验证 该 函数 有 三 个 驻 点 
dz [= 06€] | [0.085 | E [0.5655 | 
-0.6504」 . 10.085]" ~ 10.5655 
(ii) 检验 以 上 驻 点 ， 找 出 所 有 极 小 点 、 极 大 点 和 鞍点 ; 
(iii) 求 该 函数 在 每 个 驻 点 上 的 二 阶 泰勒 级 数 近似 ; 
(iv) 用 MATAB 夯 出 函数 及 其 近似 的 图 象 。 
E8.6 对 于 习题 E8 ,3 的 函数 : 
(i) 求 出 驻 点 ; 
(ii) MRA, RWB), RAR AR; 
(iti) 利用 赫 森 矩阵 的 特征 值 和 特征 向 量 粗略 画 出 轮廓 线 图 ， 
(iv) 用 MATLAB 画 出 函数 图 以 验证 你 的 答案 。 
E8.7 例题 P8.7 中 的 函数 没有 驻 点 。 试 仅 改变 向 量 d 以 产生 一 个 驻 点 。 找 出 一 个 新 的 
非 零 向 量 86， 以 产生 一 个 弱 极 小 点 。 


第 9 章 性 能 优化 


9.1 目的 


从 第 8 章 起 本 书 讨论 了 性 能 优化 问题 ， 介 绍 了 分 析 性 能 曲面 的 一 个 工具 一 一 泰勒 级 数 展 
开 ， 并 运用 这 个 工具 确定 最 优点 必须 满足 的 条 件 。 本 章 将 继续 应 用 泰勒 级 数 展开 寻求 定位 最 
优点 的 算法 。 我 们 将 讨论 三 类 优化 算法 : 最 速 下 降 法 (steepest descent), FHL JEU ES 
度 法 (conjugate gradient), TE 10 ~ 12 章 这 些 算法 将 用 于 神经 网 络 的 训练 。 


9.2 理论 和 实例 


前 面 一 章 我 们 开始 了 性 能 曲面 的 研究 。 现 在 我 们 来 寻求 搜索 参数 空间 和 确定 性 能 曲面 最 
优点 的 算法 ( 求 给 定神 经 网 络 的 最 优 权 值 和 偏 置 值 。) 

有 意思 的 是 本 章 的 多 数 算法 已 经 形成 和 发 展 了 几 百 年 。 优 化 的 基本 原理 早 在 17 世纪 就 
由 开 普 勒 、 费 马 、 牛 顿 和 莱 布 尼 芯 这 些 科学 家 和 和 数学 家 提出 了 。 自 1950 年 以 来 ， 这 些 原理 
又 被 用 于 高 速 数 字 计 算 机 。 这 方面 的 成 功 激 起 了 人 们 对 新 的 算法 进行 卓有成效 的 研究 ， 使 得 
优化 理论 领域 成 为 数学 的 一 个 主要 的 分 支 。 现 在 ,神经 网 络 的 研究 者 已 进入 这 一 巨大 的 优化 
理论 宝库 ， 并 试图 将 它 用 于 神经 网 络 的 训练 。 这 方面 的 应 用 刚刚 开始 ， 前 景 光明 。 

本 章 的 目标 是 构造 优化 性 能 指数 F(x) 的 算法 。 优 化 的 目的 是 求 出 使 F(X) 最 小 化 的 x 的 
值 。 在 这 里 ， 所 有 将 要 讨论 的 算法 都 是 迭代 的 。 首 先 ， 给 定 一 个 初始 猜测 值 mw， 然后 按照 


等 式 


Xy41 = Xy + QP; (9.1) 

E 
Ax, = (X41 7 X4) = aap, (9.2) 
逐步 修改 我 们 的 猜测 。 这 里 向 量 p, 代 表 一 个 搜索 方向 ， 一 个 大 于 零 的 纯 量 oi 为 学 习 速 度 ， 


它 确定 了 学 习 步 长 。 
本 章 的 算法 根据 搜索 方向 p, 的 不 同 而 不 同 。 我 们 将 讨论 三 种 不 同 的 可 能 性 。 另 外 还 有 


许多 种 确定 学 习 速 度 的 方法 。 
9.2.1 最 速 下 降 法 
当 用 式 (9.1) 进 行 最 优点 兴 代 时 ， 函 数 应 该 在 每 次 从 代 时 都 减 小 ， 即 
F(xi,1) < Fx) (9.3) 
如 何 选择 向 量 p, 使 对 于 充分 小 的 学 习 速 度 o, 这 个 迭代 都 能 快速 收 剑 ? sh (8.9) BB F(x) 
在 x; 的 一 阶 泰勒 级 数 展开 : 
Fu) = F(x, + Ox,) ~ F(x,) + 名 Ax, (9.4) 


这 里 g ,为 在 旧 猜 测 值 x; 的 梯度 : 
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g, = VF(x) K=x, (9.5) 


BAE F(x) < F(xi)， 式 (9.4) 右 边 的 第 二 项 必须 为 负 ， 即 
g Ax, = ag, p, « 0 (9.6) 
我 们 将 选择 较 小 的 正 数 a) KRHA 
gip:<0 (9.7) 
THAR 满足 上 式 的 任意 向 量 称 为 一 个 下 降 方 向 (descent direction)。 如 果 沿 此 方向 取 
足够 小 的 步 长 ， 函 数 一 定 递减 。 这 带 来 了 另 一 个 问题 ， 最 速 下 降 的 方向 在 哪里 ?( 即 在 什么 
方向 上 函数 递减 速度 最 快 ?) 这 种 情况 发 生 于 下 式 为 最 大 的 负数 时 : 
gx P (9.8) 
Gtp, 长 度 不 变 ， 只 改变 方向 。) 这 是 梯度 和 方向 向 量 之 间 的 内 积 。 当 方向 向 量 与 梯度 反 向 时 
该 内 积 为 负 ， 而 绝对 值 最 大 。( 见 8.2.2 节 关 于 方向 导数 的 讨论 。) 所 以 最 速 下 降 方向 的 向 量 
为 


P; =- B; (9.9) 
最 速 下 降 法 ”在 式 (9.1) 的 选 代 中 使 用 此 式 得 最 速 下 降 的 方法 ， 
Xk41 = Xy — AB; (9.10) 


学 习 速 度 ” 对 最 速 下降 法 ， 有 两 个 用 来 确定 学 习 速 度 oy 的 常见 方法 。 第 一 个 方法 是 使 
基于 o, 的 性 能 指数 (x) 每 次 迭代 最 小 化 ， 即 沿 下 列 方向 实现 最 小 化 : 
X, 一 0kg; (9.11) 
另 一 个 方法 是 选择 固定 的 a; 值 (例如 取 a = 0.02) ， 或 使 用 预先 确定 的 变量 值 (例如 o = 
1Ak)。 在 下 面 例子 中 我 们 将 详细 讨论 a, 的 取 值 问题 。 


试 给 出 下 列 函 数 的 最 速 下 降 算法 : 
F(x) = x? + 25x} (9.12) 
给 定 和 迭代 初 值 为 
0.5 
w= (0° | (9.13) 
第 一 步 先 求 梯度 : 
9 
3,, F9 2x, 
VF(x) = 5 = » | (9.14) 
5 F(x) 92 
x2 
求 迭 代 初 值 处 的 梯度 
go-VFOD|. oe M (9.15) 
0 


假定 采用 固定 的 学 习 速 度 = 0.01。 最 速 下 降 算法 的 第 一 次 迭代 为 


25 | 1 | 1o 
x a. = - 0. - 9.16 
X = Xo go lo: 9.01 0.25 (9.16) 





第 二 次 迭代 为 
0.49 0.98 0.4802 
2 By - [os] -oo is] -2 | (9.17) 

继续 迭代 下 去 可 得 图 9-1 所 示 的 迭代 轨迹 。 

注意 到 对 于 较 小 的 学 习 速度 最 速 下 降 轨 迹 的 路 径 总 是 与 轮廓 线 正 交 ， 这 是 因为 梯度 与 轮 
廓 线 总 是 正 交 的 。( 见 前 面 8.2.2 HATH.) 

如 果 改 变 学 习 速 度 ， 该 算法 的 性 能 会 如 何 变化 ? 如 果 学 习 速 度 增加 到 "= 0.035， 可 得 
图 9-2 所 示 的 轨迹 。 注 意 这 时 的 轨迹 是 一 条 振荡 线 。 可 见 如 果 学 习 速 度 太 大 ， 算 法 会 变 得 不 
稳定 ,振荡 不 会 衰减 ， 反 而 会 增 大 。 
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图 9-1 a=0.01 时 的 最 速 下 降 轨迹 图 9-2 a=0.035 时 的 最 速 下 降 轨迹 


我 们 总 是 希望 学 习 速 度 更 快 ， 所 以 增 大 步 长 以 期 快速 收敛 。 但 是 ， 从 本 例 中 可 以 看 出 ， 
如 果 学 习 速 度 太 快 ， 算 法 将 变 得 不 稳定 。 如 何 确 定 最 大 可 行 的 学 习 速度 ? 对 于 任意 函数 ， 这 


是 不 可 能 的 ,但 对 于 二 次 函数 ， 我 们 可 以 确定 一 个 上 界 。 
1. SE FS E) EAE 
假定 性 能 指数 是 一 个 二 次 函数 : 
F(x) = 了 xTAx+ drx+ c (9.18) 
由 式 (8.38) 知 二 次 函数 的 梯度 为 
VF(x) = Ax+d (9.19) 
将 这 个 表达 式 代 人 最 速 下 降 算法 的 表达 式 (假定 学 习 速 度 为 常数 )， 得 
XF+L = Xy — ag, = X; - al Ax; + d) (9.20) 
或 
X41 = [I - cA]x, - od (9.21) 


这 是 一 个 线性 动态 系统 ， 如 果 矩 阵 [I- aA] 的 特征 值 小 于 1， 该 系统 就 是 稳定 的 ( 见 
[Brog91])。 可 用 赫 森 矩阵 A 的 特征 值 来 表示 该 矩阵 的 特征 值 。 设 赫 森 矩阵 的 特征 值 和 特征 
VERS BUA LAY, Age or, Ant Minn, ta, os Zalo BBA 

[I- aAJz, = Z; -oaAz = 2; -ozi = (1 - aà;)Z; (9.22) 

所 以 [I- aA] 的 特征 向 量 与 A 的 特征 向 量 相同 ， 特 征 值 为 (1 ~ oX;)。 于 是 最 速 下 降 算法 
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的 稳定 条 件 为 
I(1-a;)] «1 (9.23) 
如 果 二 次 函数 有 一 个 强 极 小 点 ， 则 其 特征 值 为 正 数 ， 式 (9.23) 可 化 为 
a< 2 (9.24) 
h TARI REER A INA BS. BR 
a< (9.25) 





À max 


最 大 的 稳定 学 习 速 度 与 二 次 函数 的 最 大 的 曲率 成 反比 。 曲 率 说 明 梯度 变化 的 快慢 。 如 果 
梯度 变化 太 快 ， 可 能 会 导致 跳 过 极 小 点 ， 进 而 使 新 的 迭代 点 的 梯度 的 值 大 于 原 迭 代 点 的 梯度 
的 值 ( 但 方向 相反 )。 这 会 导致 每 次 迭代 的 步 长 增 大 。 

现在 用 这 个 结论 来 分 析 前 面 的 例子 。 那 个 二 次 函数 的 赫 森 矩阵 为 


2 0 
A= l; M (9.26) 
A 的 特征 值 和 特征 向 量 为 
1 0 
los -2),(2=[1]\ | dos = s. [s = |2]]] (9.27) 
所 以 允许 最 大 的 学 习 速 度 为 
a< z -2 = 0.04 (9.28) 


图 9-3 所 示 为 这 个 结果 的 实验 ， 它 表示 学 习 速 度 略 小 于 0.04(a= 0.039) 和 上 略 大 于 0.04 
(a=0.041) 的 最 速 下 降 轨迹 。 


1 

















图 9-3 a=0.039( 左 ) 和 a=0.041( 右 ) 的 最 速 下 降 轨 迹 


这 个 例子 说 明 许多 问题 。 学 习 速 度 受 限 于 赫 森 矩阵 的 最 大 特征 值 。 在 最 大 特征 值 的 特征 
向 量 方向 上 算法 收敛 最 快 ， 且 这 个 方向 上 不 能 越过 极 小 点 太 远 。( 本 例 中 的 初始 和 迭代 方向 几 
FE x, 轴 即 2, 平行 ,) 然 而 ,在 最 小 特征 值 的 特征 向 量 ( 本 例 中 的 ) 方 向 上 算法 将 收敛 最 
慢 。 最 后 ， 最 小 特征 值 与 学 习 速 度 共同 决定 算法 收敛 的 快慢 。 特 征 值 的 大 小 相差 越 大 ， 最 速 
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下 降 算法 收敛 越 慢 。 
试验 二 次 函数 的 最 加 下 降 法 请 用 Neural Network Design Demonstration Steepest 
Descent for a Quadratic( nnd9sdq) 。 

2. 沿 直线 最 小 化 

选择 学 习 速 度 的 另 一 种 方法 是 用 a, 使 每 次 迭代 的 性 能 指数 最 小 化 。 即 选择 a, 使 下 式 最 
小 化 : 





F(x, + apa) (9.29) 


对 任意 函数 的 这 种 最 小 化 需要 线性 搜索 (将 在 第 12 章 讨论 )。 对 二 次 函数 解析 线性 最 小 
化 是 可 能 的 。 式 (9.29) 对 a, 的 导数 ( 严 (x) 为 二 次 函数 ) 为 





Er 十 aktp，) = VF(x)? | x-xP 十 ap V F(x) M x, P (9.30) 
设 该 导数 为 零 并 求 出 wk 为 
了 
V F(x) P 8: P 
Qk PVO] p =- TA (9.31) 
P: X x=x,Ph P: Ap, 
这 里 A, 为 在 x, HRS: 
A, = V2F(x)| (9.32) 
X-X, 
(ZUR EAE ERE k 的 函数 。) 
现在 用 沿 直 线 最 小 化 来 实现 下 列 二 次 函数 的 最 速 下 降 : 
F(x) = del? A (9.33) 
选 代 初 值 点 为 
0.8 
Xp = | e] (9.34) 
该 函数 的 梯度 为 
VF(x) = Fi + d (9.35) 
xi + 2x3 
最 速 下 降 法 的 搜索 方向 是 梯度 的 反 向 。 对 第 一 次 迭代 ， 有 
- 1.35 
um--m--vrools [755] (9.36) 
由 式 (9.31)， 第 一 次 迭代 的 学 习 速 度 为 
[1.35 0 a[ [77 
-0.3 = 0.413 (9.37) 


"Cus cea ESSI 
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第 一 次 选 代为 
0.8 1.35 0.24 
*ı = Xo — ago = E -ol 0.3 | = ea (9.38) 

图 9-4 显示 该 算法 的 前 5 次 迭代 。 

注意 ; 算法 的 逐次 迭代 都 是 正 交 的 。 为 什么 如 此 ?首先 ， 沿 直线 的 最 小 化 总 会 在 轮廓 线 
的 切线 上 一 点 停止 。 其 次 ， 由 于 梯度 正 交 于 轮廓 线 ， 洛 梯度 相反 方向 的 下 一 步 就 与 前 一 步 正 
A. 

用 式 (9.30) 的 链 规则 (chain rule) 来 分 析 ， 


d _ 4 _ T d 
da; 8 t axp,) = da Fe? = V F(x) xx ， da, LX T ap, | 


(9.39) 
= VF(x)? x p, = £P; 


k+l 
所 以 在 极 小 点 ， 该 导数 为 零 ， 梯 度 与 前 一 步 搜 索 方向 正 交 。 由 于 下 一 -次 搜索 方向 与 梯度 
方向 相反 ， 后 面 依次 进行 的 搜索 方向 都 是 正 交 的 。( 这 个 结果 说 明 在 任何 方向 上 的 最 小 化 ， 
哪怕 未 用 最 速 下降 法 ， 极 小 点 的 梯度 都 与 搜索 方向 正 交 。 在 后 面 关 于 共 因 方向 的 讨论 中 还 要 
用 到 这 个 结果 。) 


图 9-4 沿 直线 最 小 化 的 最 速 下 降 法 
试验 沿 直线 最 小 化 的 最 还 下 降 法 请 用 Neural Network Design Demonstration 
Method Comparison (nnd9mc) 。 


APES PRTG LEER RT (FH JEFF IER) BT ERE. ORR AREA IS, 
函数 最 多 能 在 n 步 的 迭代 中 被 最 小 化 (n 为 x 的 维 数 )。( 实 际 上 存在 某 些 类 型 的 二 次 函数 ， 用 
最 速 下 降 算法 一 步 就 能 最 小 化 。 你 能 否 想像 出 这 样 一 个 函数 ?9 其 赫 森 矩阵 的 特性 是 什么 ?) 
9.2.2 牛顿 法 


最 速 下 降 算 法 的 导数 是 以 一 阶 泰勒 级 数 展开 为 基础 的 ( 式 (9.4))。 和 牛顿 法 则 基于 二 阶 泰 
勒 级 数 : 





F(xi4i) = F(x, + Ax, ) ~ F(x,) t gj AX, 十 T Ax TA, AX, (9.40) 
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牛顿 法 ”牛顿 法 的 原理 是 求 F(x) 的 二 次 近似 的 驻 点 。 用 式 (8.38) 求 这 个 二 次 函数 对 


Ax, 的 梯度 并 设 它 为 零 ， 则 有 
g, + A, Ax, = 0 (9.41) 
求解 Ax, 得 
Ax, = - Ailg， (9.42) 
于 是 可 将 牛顿 法 定义 为 
Xii = X, - AFB, (9.43) 
为 了 说 明和 牛顿 法 的 步 又 ， 将 它 用 于 前 面 式 (9.12) 的 例子 ; 
F(x) = x? 425x3 (9.44) 
其 梯度 和 赫 森 矩阵 为 
-2 F(x) 
VF(x) = »M - a | ver = ? M (9.45) 
Ja, 9 2 
如 果 从 同一 个 初始 点 
0.5 
Xp = [o3] (9.46) 


开始 ， 牛 顿 法 的 第 一 步 为 
-1 
sa -| 2) Lal -losl-[oe)-[o] — 04 
这 个 方法 总 能 一 步 找到 二 次 函数 的 极 小 点 。 因 为 牛顿 法 总 是 用 一 个 二 次 函数 逼近 F(x)， 


然后 求 其 驻 点 。 如 果 原 函数 为 二 次 函数 (有 强 极 小 点 ) ， 它 就 能 够 实现 一 步 极 小 化 。 图 9-5 所 
示 为 这 个 问题 的 牛顿 法 的 迭代 轨迹 。 


1 


1 25 o os 1 


图 9-5 牛顿 法 的 轨迹 


如 果 函 数 F(x) 不 是 二 次 函数 ， 则 牛顿 法 一 般 不 能 在 一 步 内 收 伍 。 实 际 上 根本 无 法 确定 
它 是 否 收敛 ， 因 为 这 取决 于 具体 的 函数 和 初始 点 。 
回忆 式 (8.8) 的 函数 : 
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F(x) - (x4 ~ x) + Bax. — xq + x2 +3 (9.48) 
由 第 8 章 知 ( 见 例 题 P8.5) 该 函数 有 3 个 驻 点 ; 
o Nd [55] .[ 55 | 
x -| 0.42 | Ft on l^ £= lo.s (9.49) 


第 一 点 是 一 个 强 局 部 极 小 点 ， 第 二 点 是 一 个 远 点 ， 第 三 点 是 一 个 强 全 局 极 小 点 。 
将 牛顿 法 用 于 这 个 问题 ， 初 始点 为 ww = [1.5 0]7， 第 一 次 和 迭代 如 图 9-6 所 示 。 左 边 的 
图 是 原 沙 数 的 轮廓 线 图 ， 右 边 的 图 是 该 函数 在 初始 点 的 二 次 近似 。 








a^ 
o 
四 


图 9-6 牛顿 法 从 加 =[ -1.5 0]7 的 一 次 迭代 


该 函数 不 能 实现 一 步 最 小 化 ， 因 为 这 不 是 二 次 函数 。 然 而 ， 迄 代 是 朝 全 局 极 小 方向 进行 
的 ， 如 果 再 迭代 两 次 ， 算 法 就 能 收 全 到 全 局 极 小 点 的 0.01 的 范围 之 内 。 牛 顿 法 在 许多 应 用 
中 都 能 快速 收敛。 这 是 因为 在 一 个 强 极 小 点 的 较 小 的 邻 域内 ， 解 析 函 数 能 够 被 二 次 函数 精确 
近似 。 离 极 小 点 越 近 ， 和 牛顿 法 越 能 精确 标识 该 极 小 点 。 从 本 例 中 可 以 发 现在 初始 点 附近 ， 二 
次 近似 的 轮廓 线 图 同 原 函 数 轮廓 线 图 很 相似 。 

图 9-7 BRAN AVA xy=[-1.5 0]7 为 初始 点 的 牛 瑟 一 次 迭代 。 本 例 中 收敛 到 局 部 极 小 
点 。 显 然 ， 牛 顿 法 不 能 区 别 局 部 极 小 和 全 局 极 小 ， 因 为 它 将 耳 数 近似 为 二 次 函数 ， 而 二 次 函 
数 只 有 一 个 极 小 点 。 同 最 速 下 降 法 一 样 ， 牛 顿 法 也 依赖 于 曲面 的 特征 (一 阶 和 二 阶 导数 )。 它 
无 法 弄 清 函 数 的 全 局 特征 。 





图 9-7 Ax-[-1.5 0]7 的 牛顿 法 的 一 次 选 代 
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9-8 所 示 为 以 xo =[0.75 0.75] 为 初始 点 的 牛顿 法 的 一 次 迭代 。 这 次 收敛 到 了 函数 
的 鞍点 。 注 意 牛 顿 法 是 在 当前 初始 点 确定 旺 数 的 二 次 近似 的 驻 点 ， 它 并 不 区 别 极 小 点 、 极 大 
点 和 鞍点 。 本 例 中 的 二 次 近似 有 一 个 鞍点 (不 定型 赫 森 矩阵 )， 在 原 函 数 鞍 点 附近 。 如 果 继 续 


和 迭代， 算法 就 会 收敛 到 FRA. 
|J 
* 3 (| 


图 9-8 以 =[f0.75 0.75]7 为 初始 点 的 牛顿 法 一 次 迭代 


以 上 各 例 中 二 次 近似 的 驻 点 总 在 F(x) 相 应 的 驻 点 附近 。 实 际 情况 并 不 总 是 这 样 。 实 际 
上 ， 牛 顿 法 可 以 产生 难以 预料 的 结果 。 

图 9-9 所 示 为 xo = [1.15 0.75]7 为 初始 点 的 牛顿 法 一 次 和 迭代。 这里， 二 次 近似 预期 会 
有 一 个 鞍点 ， 但 是 鞍点 离 F(x) 的 局 部 极 小 点 很 近 。 如 果 连 续 和 迭代 下 去 ， 算 法 将 收 伍 到 局 部 
极 小 点 。 注 意 这 里 初始 点 离 该 局 部 极 小 点 比 上 例 中 更 远 ， 而 上 例 中 却 收敛 到 鞍点 。 


JS. 


= 





所 ot 9 1 2 





= 


图 9-9 Ux=[1.15 0.75]? 为 初始 点 的 牛顿 法 一 次 迭代 


试验 该 函数 的 牛顿 法 和 最 速 下 降 法 请 用 Neural Network Design Demonstration 
Newton's Method (nnd9nm) 和 Steepest Descent (nnd9sd) 。 





牛顿 法 的 特点 总 结 如 下 : 
尽管 牛顿 法 的 收敛 速度 通常 比 最 速 下 降 法 更 快 ， 但 其 表现 很 复杂 ， 除 了 收敛 到 鞍点 的 问 
题 ( 同 最 速 下 降 法 不 同 ) 外 ， 算 法 还 可 能 振 葛 和 发 散 。 如 果 学 习 速 度 不 太 快 或 每 步 都 实现 线性 


极 小 化 ， 最 速 下 降 法 能 够 确保 收敛 。 
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第 12 章 将 讨论 适合 网 络 训练 的 牛顿 法 的 一 种 变型 ， 它 能 够 解决 当 发 散 开 始 出 现时 最 速 
下 降 法 的 发 散 问 题 。 

牛顿 法 的 另 一 个 问题 是 需要 对 赫 森 矩阵 及 其 逆 阵 的 计算 和 存储 。 将 最 速 下 降 法 的 式 
(9.10) 与 牛顿 法 的 式 (9.43) 相 比 ， 可 以 发 现 当 下 式 成 立时 ， 它 们 的 搜索 方向 将 相同 : 

A, = Aji =I (9.50) 

由 此 可 以 导出 称 之 为 类 牛顿 法 或 单 步 正 割 法 的 一 类 优化 算法 。 这 类 方法 用 一 个 正定 矩阵 
H, 代替 A;， 该 矩阵 不 需 转 置 ， 每 次 迭代 都 刷新 。 这 类 算法 通常 能 使 二 次 函数 H, 收敛 于 
A-!'。( 二 次 函数 的 赫 森 矩阵 为 一 常数 矩阵 。) 有 关 这 类 方法 的 讨论 见 .Gil81]、[Scal85] 或 
[ Batl92 ] 。 


9.2.8 HEREZ 


二 次 终结 法 ”牛顿 法 有 一 个 性 质 称 为 二 次 终结 法 (quadratic termination), BUE REEAR 
的 迭代 次 数 内 使 二 次 函数 极 小 化 。 但 这 需要 计算 和 存储 二 阶 导数 。 当 参数 个 数 ”很 大 时 ， 
计算 所 有 二 阶 导 数 是 很 困难 的 。( 若 梯度 有 n POR, MERES n? 个 元 素 )。 在 神经 网 
络 中 这 个 问题 尤其 严重 ， 因 为 这 里 的 实际 应 用 往往 需要 几 百 个 甚至 上 千 个 权 值 。 所 以 我 们 希 
望 找 到 只 需要 一 阶 导数 但 是 仍 具 有 二 次 终结 性 质 的 方法 。 

回忆 最 速 下 降 法 在 每 次 选 代用 线性 搜索 时 的 性 能 。 相 继 选 代 的 搜索 方向 相互 正 交 ( 见 图 
9-4)。 对 于 轮廓 线 为 椭圆 的 二 次 函数 ， 这 将 产生 短 步 长 的 锅 齿 形 轨迹 。 也 许 二 次 搜索 方向 并 
非 最 好 的 选择 。 那 么 存在 一 个 确保 二 次 终结 法 的 搜索 方向 的 集合 吗 ? 一 个 可 能 便 是 共 恩 方向 。 

假定 对 下 述 二 次 函数 确定 极 小 点 ; 

F(x) = lx'Ax «dix «c (9.51) 


Hee MALY 
piAp, = 0,k # j (9.52) 
时 ， 称 向 量 集合 {p,} 对 于 一 个 正定 赫 森 矩阵 A PEDAL CAE. ITELI, FER NAEK 
成 一 个 m HEZSIBIBSPUPIAESEIS] NEA. H A 的 特征 向 量 组 成 的 共 氏 向 量 集 也 是 其 中 之 一 。 设 
I, Ags cn. ASI. mo, ms 分别 为 替 森 矩阵 的 特征 值 和 特征 向 量 。 为 了 验证 特征 
HREH, Fz, 代替 式 (9.52) 的 p;,， 有 
HAZ = ART, =0, kj (9.53) 
ASR RV ERAN ME Ee. BLA PCE e] BSE IEA. 
(PRR AS PH TAR BY) TE DE FE BE BSE 9] — A PHL?) 
1E AR ER EY PE (EE AS Lf — Ux PRU ME. LAFTA, BARE 
量 构成 函数 轮廓 线 的 主轴 。( 参 见 8.2.5 节 “ 赫 森 的 特征 系统 ”中 的 讨论 ,) 然 而 这 对 于 实际 运 
用 没有 多 少 帮 助 ， 因 为 要 知道 特征 向 量 必须 先 求 出 药 森 和 矩阵。 我 们 希望 找到 一 种 不 需要 计算 
二 阶 导数 的 算法 。 
已 经 证 明 ( 见 [Seal85] 或 [Gil81])， 如 果 存 在 沿 一 个 共 恩 方向 集 1p| ，p,，…，p, | 的 准确 
线性 搜索 序列 ， 就 能 在 最 多 n 次 搜索 内 实现 具有 n 个 参数 的 二 次 函数 的 准确 极 小 化 。 问 题 
在 于 如 何 构造 这 些 共 斩 搜 索 方 向 。 首 先 来 看 式 (9.5$2) 中 不 用 赫 森 扼 阵 的 共 琵 条 件 。 注 意 到 对 
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于 二 次 函数 ， 有 
VF(x) = Ax+d (9.54) 
V2F(x) = A (9.55) 
将 这 些 等 式 组 合 起 来 ， 能 发 现在 k+ 1 次 和 迭代 时 梯度 的 变化 : 
Ag, -8,,,-8, = (Ax;,, + d) - (Ax, + d) = AAx, (9.56) 
又 由 式 (9.2) 有 
Ax, = (Xi41 — Xj) = oup, (9.57) 


选择 o, ERR F(x) p, 方向 上 极 小 化 。 
所 以 式 (9.52) 的 共 罗 条 件 可 重 写成 
api Ap, = AX Ap, = Ag; p, = Ob x j (9.58) 
FERRERS RMR. UTD ESIEJESE AR PER USTEDES FCRI RR HE SH 
CA, RISUS SPRERE ASIE, MEME. 
注意 第 一 次 搜索 方向 p, 是 任意 的 ， 而 p, 可 以 是 与 Og, EE TERIS S HUGS 
集 的 数量 是 无 限 的 。 通 常 从 最 速 下 降 法 的 方向 开始 搜索 : 
Po 7 7 o (9.59) 
每 次 迭代 都 要 构 选 一 个 与 |Ago。，Ag ,，…，Ag | 正 交 的 向 量 p 。 这 与 第 5 章 讨论 的 
Gram-Schmidt 正 交 化 过 程 类 似 。 可 将 迭代 形式 简化 为 ( 见 [Scal85]): 








p, =- g, + Epi (9.60) 
确定 系数 8, 的 方法 有 许多 种 ， 对 二 次 函数 产生 的 结果 相同 。 道 常 选择 ( 见 ScalB5 ]) : 
Ag 多 
B= (9.61) 
Ag, -1Pi-1 
(由 Hestenes 和 Steifel 确定 ) 9-17 
T 
= = : (9.62) 
8-18- 
(H Fletcher 和 Reeves 确定 ) 
T 
B, = EL (9.63) 
g;-18&.1 


(由 Polak 和 Ribiére 确定 ) 
HR 上 述 关于 共 轿 梯度 的 讨论 可 归纳 如 下 : 
1) 选择 如 式 (9.59) 所 示 的 与 梯度 相反 的 方向 作为 第 一 次 搜索 方向 。 
2) 根据 式 (9.57) 进 行 下 一 步 搜索 ， 确 定 ax 以 使 函数 沿 搜索 方向 极 小 化 。 
第 12 章 将 讨论 通用 的 线性 极 小 化 技术 。 对 于 二 次 函数 ， 可 使 用 式 (9.31)。 
3) 根据 式 (9.60) 确 定 下 一 个 搜索 方向 ， 用 式 (9.61) ，(9.62) 或 (9.63) 式 计算 Bro 
4) 如 果 算 法 不 收敛 ， 回 到 第 2 步 。 
为 了 说 明 这 个 算法 的 性 能 ， 再 使 用 前 面 用 于 说 明 线 性 极 小 化 的 最 速 下 降 法 的 例子 ; 
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154 FEE II 44 3 tf 





12 
初始 点 为 
=| as] 
KAR EA 
rr [I] 


对 于 最 速 下 降 法 ， 第 一 次 搜索 方向 与 梯度 相反 ; 


MEN r 7 BM 
Po =~ 80 = VF (x) zx "o 
由 式 (49,31)， 第 一 次 选 代 的 学 习 速 度 为 
- 1.35 
[1.35 0.3] PP | 
"cus cox[? fb] 
7 |OUCÍI 210 -0.3 
BriAdtSu Eb REE —2B Jg 
l -| 0. ous 7195] -| 0.24 
X% =X +o =] _ 025] 1-031 7 |-0.37 





这 个 结果 与 沿 直线 的 最 速 下 降 极 小 化 的 结果 相同 。 
现在 用 式 (9.60) 找 第 二 次 搜索 方向 。 先 求 出 在 x 的 梯度 : 


semel, E I] 


现在 求 By: 
0.11 
T (0.11 = 0.5] | 
818 - 0.5 0.2621 
1i= 75g) = 1.9125 = 9-197 
& 8o [1,35 0 3]| 03 | 


这 是 式 (9.62) 的 Fletcher 和 Reeves 的 方法 。 于 是 由 式 (9.60) 得 第 二 次 搜索 方向 : 


-0.11 - 1.35 - 0.295 
P =-8:+hp=| os |*917] 55] 7| 0.450 


由 式 (9.31)， 第 二 次 迭代 的 学 习 速 度 为 


[0.11 -0 si p 0:295 | 
4a LLL LLL 0,459 _ 0.262 _ 9 807 
7 |: [70:25] 0.325 
[~ 0.295 0.459] | , ott 0.459 


因此 共 斩 梯度 法 的 第 二 步 为 
0.24 


- 0.295 0 
w= tap=|_ 9 57] +O] 5 aso | = [o 


(9.64) 


(9.65) 


(9.66) 


(9.67) 


(9.68) 


(9.69) 


(9.70) 


(9.71) 


(9.72) 


(9.73) 


(9.74 ) 
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该 算法 和 预期 的 一 样 ， 两 次 选 代 就 精确 收 倒 到 极 小 点 (因为 这 是 一 个 二 维 的 二 次 函数 )， 
如 图 9-10 所 示 。 把 这 个 结果 与 图 9-4 的 最 速 下 降 算 法 的 结果 相 比 较 可 知 ， 同 最 速 下 降 法 使 
用 正 交 的 搜索 方向 的 方法 不 同 ， 共 枉 梯度 算法 调节 第 二 次 搜索 方向 以 使 它 通 过 函数 极 小 点 


(函数 轮 廊 线 的 中 心 )。 


Æ 9-10 ” 共 恩 梯度 算法 


第 12 章 还 会 讨论 共 斩 梯 度 算法 用 于 非 二 次 函数 的 情况 。 
Bib KH ERS Bik FB RA Neural Network Design Demonstra- 
tion Method Comparison (nnd9mc) , 





9.3 小 结 
通用 最 小 化 算法 
Xy41 = Xk 十 P; 
或 
Ax, = (X441 - Xj) = ap, 
最 速 下 降 算 法 


Xk+1 = X; — QkBE 
其 中 gi = VF(x) 
X=X 


k 
稳定 学 习 速 度 (o, = o, BR) 


{A1, Ards very A, DARRER A 的 特征 值 
沿 直线 xx x, + asp; 的 最 小 化 的 学 习 速 度 
T 
gx P; 


P A Ap, 





(用 于 二 次 函数 ) 


Q =- 
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沿 直线 xx ,1 = X; + aP; 的 最 小 化 之 后 








gj; =0 
牛顿 法 
Xy) = XE 一 Ai g, 
其 中 
A; = V2F(x) 
9-21 x=xX 
HME BE GE 
AX; = aP; 
沿 直线 Xy 41 二 RE 十 QFP 的 最 小 化 确定 学 习 速 度 a, 
Po =- Bo 
Pi =- 8, + Bip, 
^g, 18, MNT Ag. ig, 
Bis 一 一 一 或 Bi = ——— X8 = 一 
Ag , 1Pi.1 Bx 1Pi-1 8 i-1iPi-1 
9-22 其 中 g, = VF(x) x=x HVg, 7 g,.1-8; 
UC 
9.4 例题 


P9.1 求 下 列 函数 的 极 小 点 : 
F(x) = 5x} — 6x1xj + 5x3 + 4x1 + 4x; 

(i) 画 出 该 函数 的 轮廓 线 图 。 

(ii) 设 学 习 速 度 很 小 ， 起 始点 为 =[ -1 -2.5]7， 画 出 (iD 中 轮 廊 线 的 最 速 下 降 算 
法 的 轨迹 。 

(ui) 最 大 的 稳定 学 习 速度 是 多 少 ? 

解 

(i) 要 画 出 轮廓 线 图 必须 先 求 出 赫 森 矩阵 。 对 于 二 次 函数 ， 只 要 将 函数 化 成 标准 形式 
( 见 (8.35)) 就 能 得 到 赫 森 矩阵 : 





FQ) = TxTAx + dx + e = 5x? » [xata 4]x 
Hist (8. 39 ME pog | 
; _, [0 -6 
Viro) -A= | 了 


该 矩阵 的 特征 值 和 特征 向 量 为 
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由 第 8 章 ( 见 8.2.5 TS ARXEBURHIE RU) CT — UC BRN CAE BARRA 
AF MAF A, BEA F(X) 的 最 大 曲率 在 方向 上 。 其 最 小 曲率 在 2; 方向 上 (椭圆 的 长 轴 )。 
下 面 求 轮廓 线 的 中 心 ( 驻 点 ) ， 即 使 梯度 为 零 的 点 。 由 式 (8.38) 有 


ro smsa. éE] 


故 有 o 


. 10 -6]"[4 -1 
x -| o] 四 = IM 
轮廓 线 是 椭圆 ， 中 心 点 为 x* ， 长 轴 在 zr. PRR ^] 
图 如 图 9-11 所 示 。 
(ii) 梯度 总 是 与 轮廓 线 相 垂直 ， 如 果 步 长 足够 
小 ， 最 速 下 降 轨 迹 将 与 每 条 相交 的 轮 亡 线 垂直 。 所 以 
不 需 任 何 计算 就 可 画 出 这 一 轨迹 ， 如 图 9-11 所 示 。 
(iii) 由 式 (9.25) 知 替 森 矩阵 的 最 大 特征 值 决 定 了 
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二 次 函数 的 最 大 的 稳定 学 习 速 度 : ` ” ” ' 
a < 2. 图 9-11 例题 9.1 的 轮廓 线 图 
Xmas 及 最 速 下 降 轨迹 
本 例 的 最 大 特征 值 为 2 = 16， 所 以 
a < 2 = 0.125 
图 9-12 所 示 验 证 了 这 一 结果 ， 图 中 分 别 画 出 了 学 习 速 度 略 低 于 (a = 0.12) 和 上 略 大 于 (a 
=0.13) 最 大 稳定 学 习 速 度 时 的 最 速 下 降 轨迹 。 





图 9-12 a=0.12( 左 ) 和 a=0.13( 右 ) 的 轨迹 
P9.2 采用 沿 直线 最 小 化 的 两 步 最 速 下 降 算法 处 理 例 题 P9,1 中 的 二 次 函数 。 起 始 条 件 为 ; 
x -[0 -2]7 
解 
由 例题 P9.1 知 函 数 的 梯度 为 


VF(x) = Ax+d ^ s] 
= = x 
X 十 -6 10 十 
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En AHAB RO, A 
go = VF(X9) = Ax +a=| e] «L1 -| 1 | 


-6 10 4 
所 以 第 一 次 搜索 方向 是 


-| 
po =~ 80 = 16 


二 次 函数 沿 直 线 的 最 小 化 可 用 式 (9.31): 


7 [16 16] - | 
一 | 

go Po "i 16 - 

- -. 23H . 9.0625 


% = T - = 
10 -6][- 16 8192 
-6 Jl 16 





所 以 最 速 下 降 法 的 第 一 次 选 代 为 
Xi = Xo 7 0o = M - 0,0625{ "5 = IH 
58 UGRSTUR TOR x, ARE: 


10 -6][-1] [4] [o 
g = VFO) = Ax sd =| C ellalslil = [0] 


所 以 已 到 达 一 个 驻 点 ! 算法 也 已 经 收 傅 。 由 例题 P9.1 知 该 驻 点 的 确 是 这 个 二 次 函数 的 极 小 


点 。 图 9-13 所 示 为 下 降 轨 迹 。 
7 


A 
— 


图 9-13 例题 P9. 2 采用 线性 极 小 化 的 最 速 下 降 法 


这 是 一 个 最 速 下 降 算法 一 次 迭代 到 极 小 点 的 特例 。 注 意 ; 这 里 的 初始 点 位 于 赫 森 矩阵 指向 极 
小 点 的 特征 向 量 的 方向 上 。 只 要 搜索 方向 在 特征 向 量 方向 上 ,最速 下 降 法 就 能 一 次 近代 到 极 
小 点 。 这 对 苗 森 矩阵 的 特征 值 意味 着 什么 呢 ? 
P9.3 我 们 在 例题 P8.6 推出 了 一 个 线性 神经 网 络 的 性 能 指数 。 图 9-14 给 出 该 网 络 的 结 
构图 ， 网 络 用 下 述 输入 /输出 对 进行 训练 : 
1(p =2), (ti = 0.5)},1(p, =~ 1),(t = 0)] 


网 络 性 能 指数 定义 为 


POF HH HH 159 





F(x) = (ti - a(x))? + (t2 - a9 (x))? 
如 图 8-18 所 示 。 
(i) 设 初始 点 为 m= [1 1]7， 学 习 速 度 = 0.05。 用 最 速 下 降 法 求 该 网 络 的 最 优 参数 
(x=[w 6]"). 
(ii) 最 大 的 稳定 学 习 速 度 是 多 少 ? 
输入 线性 神经 元 
NAN 


petty} IY 
b 


OUy L 
a = purelin(wp- b) 
9-14 例题 P9.3 和 了 P8.6 的 线性 网 络 


解 
(i) 由 例题 P8 ,6 知 该 性 能 指数 可 以 写成 二 次 形式 ， 


F(x) = lxrAx 1 dx ec 


这 里 
c = trt = [0.5 ol "| = 0.25 
censor af? YL] «(TF 
A = 2G'G = [2 | 
x, 点 的 梯度 为 


r6) x [7 li) nds] 


最 速 下 降 法 的 第 一 次 迭代 为 


H oes [ 2] =| °° | 
* 2*-78)7|1] =s] 7 00.75 


27 o.os| | [0:275 | 
BEM Br lost} l3 ^t 0.6 


后 面 的 选 代 见 图 9-15。 算 法 收敛 于 极 小 点 x* = [0.167 0.167]7。 所 以 该 网 络 的 权 值 和 


偏 置 值 的 最 优 值 都 是 0.167。 
要 训练 该 网 络 必须 知道 所 有 的 输入 /输出 对 ， 然 后 进行 最 速 下 降 算 法 的 迭代 直到 达到 收 


第 二 次 选 代为 


760 FREE I A IET 


: 


* 3 9 1 


图 9-15 例题 P9.3 P a2 0.05 的 最 速 下 降 法 轨迹 


$t, R 10 章 我 们 将 介绍 一 个 用 于 训练 线性 网 络 的 自 适 应 最 速 下 降 算法 。 在 这 种 自 适应 算法 
中 ， 每 次 输入 /输出 对 都 使 网 络 参数 被 更 新 。 这 样 ， 网 络 能 够 适应 环境 的 变化 。 
(d) 本 例题 中 苏 森 矩阵 的 最 大 特征 值 为 A = 10.6( 见 P8.6)， 故 最 大 的 稳定 学 习 速度 为 


_9-28 2 
a < 79.6 = 0-1887 


P9.4 R FIRRA x =(1 -2) 为 初始 点 的 牛顿 法 一 次 迭代 。 本 题 结果 离 F(x) 极 
小 点 有 多 近 ? 试 予 以 说 明 。 


F(x) = gon 





解 
首先 求 梯度 和 赫 森 矩阵。 梯度 为 
g 
z— F(x) 
VF(x) - » = ul On n | 
x 
34; (9 2 
M BREE 
3? 2? 
2,779 33,22, 
V?F(x) = 2 ; 
oo F(x) 2 F(x) 
9x39 x, ax? 
= | 4x1 ~ 4x, +3 (2%, - 1)(4x4) | 
(2x; - 1) (4x2) 16x2 +4 
在 初始 点 x, A 


vr | 0.163 x 10° | 
z x = 
Bo X=X, — 1.302 x 10° 


0.049 x 10? - 0.130 x 10’ 
Ap = V2F(x)| = 
x=X, | -0.130x 10’ 1.107 x 10’ 
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4 1 0.049 x10 - 0.130 x 10 ] | 0.163 x 10° 0.971 
Xi = Xo - Ao go = _2 一 = 


—0.130x 10’ 1.107 x 10’ - 1.302 x 10 - 1.886 
这 一 点 离 F(x) 的 极 小 点 有 多 近 呢 ”首先 注意 到 Fx) BRR EARRA: 
他 -x+2x8+4= lxlAx e dx e eoe de? 1 x«[-1 O]x«4 





F(x) 的 极 小 点 即 指数 部 分 的 极 小 点 ， 即 
» Qa) [2 9|] rf-1] [0.5 
T -Ana--|。 | PEN 
所 以 牛顿 法 只 是 向 真正 的 极 小 点 收 和 你 了 一 小 步 。 这 是 因为 R(x) 无 法 由 一 个 二 次 函数 在 
x-[1 -2]7 的 邻 域内 精确 近似 。 
本 例 中 牛顿 法 可 以 收敛 到 真正 的 极 小 点 ， 但 要 经 过 多 次 迭代 。 图 9-16 所 示 为 牛顿 法 的 
轨迹 。 
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P9.5 已 知 函 数 


起 始点 为 





试 比较 牛顿 法 和 最 快速 下 降 法 的 性 能 。 
解 
回忆 这 个 函数 是 关于 一 个 驻 点 止 槽 的 例子 ( 见 式 (8.59) 和 图 8-19)。 其 梯度 是 


VF(x) = AX+d= E s 


ARE E 


162 FERE IL AE IE UA 


2 _ E 1 7] 
vir) =A-| 1 


牛顿 法 为 
Xii = X, — Aj'g, 
注意 ;由 于 替 森 矩阵 是 奇异 矩阵 ， 该 算法 无 法 实际 运行 。 从 第 8 章 的 讨论 我 们 知道 ， 该 


RRL ABR, BRER x1 = x2 有 一 个 弱 极 小 点 。 
用 最 速 下 降 算 法 会 出 现 什 么 情况 呢 ? 如 果 学 习 速 度 为 = 0.1， 从 初始 点 出 发 ， 前 两 步 


ERA 
X; = Xo - ago = H -oaf !] =| °° | 


0.9 2 0.8 
X = X} - ag, = _0.1 - 0.1 _2 = -0.2 


图 9-17 为 完整 的 轨迹 。 本 例 中 最 速 下 降 算法 比 牛 顿 法 性 能 要 好 。 最 速 下 降 算 法 收敛 到 
一 个 极 小 点 ( 弱 极 小 点 ) ， 而 牛顿 法 不 收 伍 。 第 12 章 我 们 要 讨论 一 种 将 牛顿 法 与 最 速 下 降 法 
相 结合 的 技术 ， 以 克服 赫 森 矩阵 的 奇异 性 (或 类 奇异 件 ) 的 影响 。 
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图 9-17 例题 P9.5 在 a=0.1 时 的 最 速 下 降 轨迹 
P9.6 已 知 函数 


F(x) = x] xix2 — x1xi 


(i) 初始 点 为 ww =[1 1]7， 求 牛顿 法 的 一 次 迭代 。 
(ii) R F(x) 关 于 xo 的 二 阶 泰勒 级 数 展开 。 这 个 二 次 函数 在 (让 中 的 x 点 能 达到 极 小 值 
吗 ? 试 解释 。 


解 
(i) F(x) 的 梯度 为 


VF(x) z 


9 
Ja F(9 3x24 ud 
- xi- 222x2 


[932] 赫 森 矩阵 为 


BOP 4 s v 1 163 


6x; -2x3 1- seal 


1 — 4x, x2 - 2x] 


V?F(x) -| 
在 初始 点 有 
Bo = 2 = M 
0 


oe 


Ao = TEO an = M -2 


0 


HERE BS — GRON 


BENE ']-[ Gp >| [0382] 
x = Xo a'eo = |， -3 -2 l^ = L1.1176 
(ii) 由 式 (9.40)，F(x) 在 xo 的 二 阶 泰勒 级 数 展开 式 为 

F(x) = F(% + Ax) = FG) + gd ax + ZAKS c/o 


"or Bo HM i Jak- BHL “ale 








F(x) =1+([2 - Jis- 
化 简 得 
4 -3 
-3 -2 
该 函数 在 x 有 一 个 驻 点 。 问 题 在 于 该 驻 点 是 否 是 一 个 强 极 小 点 。 这 可 由 幸 森 矩阵 的 特 
征 值 确定 。 如 果 两 个 特征 值 都 为 正 ， 则 它 是 一 个 强 极 小 点 。 如 果 两 个 特征 值 都 为 负 ， 则 它 是 
一 个 强 极 大 点 。 如 果 两 个 特征 值 符号 相反 ， 则 它 是 一 个 鞍点 。 本 例 中 Ao 的 特征 值 为 
A = S.24, 和 X = 一 3.24 9-33 
由 于 这 是 一 个 鞍点 ， 所 以 FOE xo 的 二 次 近似 在 点 没有 极 小 化 。 图 9-18 所 示 为 
F(x) 的 轮廓 线 图 及 其 二 次 近似 。 
这 种 问题 也 在 图 9-18 和 图 9-19 中 有 说 明 。 牛 顿 法 无 法 确定 当前 点 是 否 为 函数 的 二 次 近 
似 的 驻 点 ， 它 不 能 区 分 极 小 点 、 极 大 点 和 鞍点 。 


( 
NI | 


图 9-18 牛顿 法 在 xo。=[1 1]7 的 一 次 迭代 








F(x)~-2+1[1 4]x + Tx x 


= 





Di 9 1 a 


| 9-34 


l64 PEABKI 


P9.7 HHR PEE UBI P9.3 的 (i) 题 。 





解 
E ARIA 
F(x) 20.254 [-2 -axa dar] 2 ， x 
在 ww 梯度 为 


evo «see [7 -ls 


于 是 第 一 次 搜索 方向 为 





- 10 
m=- |- | 
要 使 二 次 函数 沿 直线 极 小 化 ， 可 以 用 式 (9.31); 
- 10 
ZoPo [10 s|[- ?| -125 0 09g 
m = =- -一 = 
pd Ap, [_ 10 -s]|7 jp 


ER 3E SU BÉ HESS 58 RERA 
1 - 10 0.038 
X= Xo + oPo = NH + 0.0969] -5 | = lo sie] 
现在 用 式 (9.60) 求 第 二 个 搜索 方向 。 首 先 求 x, 点 的 梯度 : 


10 2][0.038 -2 - 0.577 
gi = VF) | -| ‘lle 55] «i -| 1.154 | 





现在 求 B : 
- 0.577 
Ag 7g， [- 10.577 - 3.846]| | | 6 
Bi = -一 = 一 一 一 -0.0133 
8o8o [10 si 5 | 


这 里 使 用 了 PoLak 和 Ribiére( 式 (9.63) ) 的 方法 。( 求 有 的 另外 两 种 方法 对 二 次 函数 的 结果 不 
变 。 可 试 一 下 。) 于 是 第 二 次 搜索 方向 为 ; 
0.577 - 10 0.444 
Pı =~ 81 + Bip = | 1. l + 0.0133] M = EN | 
由 式 (9.31) 求 第 二 次 迭代 的 学 习 速 度 为 


0. 577 1.154 | 2m 
[- | 1.220 _ - 1.664 
0.444 ~ 5.758 


- 1.220 





q = 


[0.444 -1. mol ^ "ll 
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0.038 t] [01557] 
0.519 -1.220] 10.1667 


经 过 两 次 迭代 如 期 到 达 极 小 点 ， 轨 迹 如 图 9-19 所 示 。 


X; = XI + ap, = | | * 0.2889| 














图 9-19 例题 P9.7 ROSES RES 


P9.8 证 明 共 斩 向 量 线性 无 关 。 

证 

MBB lp, p. > pa 对 替 森 矩阵 ASH. MRAM RRA, WK 
(5.4) 
ap, aj, “ty an- AREAS H BR 
p ARIELA, WA 


pIAS ap, = 5E pi Ap, = upk Ap, = 0 
这 里 用 到 了 式 (9. 52) 3E AERE EU E XL 如 果 A 是 正定 的 (存在 一 个 惟一 的 强 极 小 点 )， 
则 pA Ap, 为 严格 正 的 。 这 表明 对 所 有 的 不，ax | WAS, SRT. MAMER 
性 无 关 。 


9.5 ARE 


本 章 介绍 了 三 个 不 同 的 优化 算法 : 最 速 下 降 法 ， 牛 顿 法 ， 共 恩 梯 度 法 。 这 三 种 算法 的 基 
础 是 泰勒 级 数 展开 。 最 速 下 降 法 由 一 阶 泰勒 展开 导出 ， 而 牛顿 法 和 共 思 梯度 法 则 用 于 二 阶 
(=) BR. 

e FREE Ut AGERE HL REV RARE. IIURAE2IXEHE EB), CR RIERA — 
个 驻 点 。 其 缺点 是 训练 时 间 通常 比 其 他 算法 长 ， 当 二 次 函数 赫 森 矩阵 的 特征 值 相差 很 大 时 万 
其 如 此 。 

牛顿 法 通常 比 最 速 下 降 法 快 得 多 。 对 于 二 次 函数 ， 它 能 够 一 次 迭代 收敛 到 一 个 驻 点 。 它 
的 一 个 缺点 是 需要 计算 和 存储 赫 森 矩阵 及 其 逆 矩 阵 。 另 外 ， 牛 顿 法 的 收敛 特性 也 很 复杂 。 第 
12 章 我 们 将 介绍 经 过 修正 的 牛顿 法 ， 它 克服 了 原 标准 算法 的 缺点 。 
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函数 的 极 小 点 ， 且 不 需要 计算 和 存储 南 森 矩阵 。 它 最 适合 于 解决 参数 量 很 大 且 赫 森 和 矩阵 的 计 
算 和 存储 不 可 行 时 的 问题 。 

后 面 的 几 章 我 们 将 把 这 些 优化 算法 用 于 训练 神经 网 络 。 第 10 章 将 介绍 一 种 最 速 下 降 的 
近似 算法 ， 即 Widrow-Hoff 学 习 ， 可 用 于 训练 线性 网 络 。 第 11 章 推广 用 于 训练 多 层 网 络 
Widrow-Hoff 学习。 在 第 12 章 ， 共 罗 梯 度 算法 和 牛顿 法 的 一 个 变形 将 用 于 加 速 多 层 网 络 的 
训练 。 
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本 书 是 一 本 可 读 性 很 强 的 关于 主要 的 优化 算法 的 书 ， 本 书 强调 的 重点 是 优化 的 方法 
而 不 是 存在 定理 和 收敛 性 证 明 。 它 通过 图 形 和 例子 来 直观 地 解释 算法 。 多 数 算法 都 给 出 


了 的 码 。 
习题 
E9.1 在 例题 P9.1 中 我 们 讨论 了 应 用 于 典型 的 二 次 函数 的 最 速 下 降 算 法 的 最 大 稳定 学 
习 速 度 的 求解 。 如 果 采 用 较 大 的 学 习 速度 ， 算 法 是 否 一 定 发 散 ? 或 者 说 是 否 存 在 


保证 算法 收敛 的 条 件 ? 
E9.2 求 下 列 函 数 的 极 小 点 : 


6 -2 - 
rox) = dx] © 6 ]e ci -1 x 


(i) 画 出 该 函数 的 轮廓 线 图 。 
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(ii) TEGOBUSEBEERES LEHRER HL, WESS x -(0 0]7, * 
习 速 度 足 够 小 。 

(iii) 若 学 习 速 度 a=0.1， 进 行 最 速 下 降 算 法 两 次 迭代 。 

(iv) 最 大 的 稳定 学 习 速 度 是 多 少 ? 

(v) 对 于 (i) 中 给 定 的 初始 点 求 最 大 的 稳定 学 习 速 度 。( 见 习题 E9.1。) 

(vi) 写 出 MATLAB 的 M-file 文件， 实现 本 题 中 的 最 速 下 降 算法 ， 并 用 以 检验 从 
(站 到 (v) 的 答案 。 

E9.3 已 知 二 次 函数 
F(x) = x? + 2x2 


Ci) 求 函 数 沿 下 列 直线 的 极 小 点 : 


1 -1 
x= b | * | - ;| 
(ii) TER F(x) 在 (i) 题 中 的 极 小 点 处 的 梯度 委 直 于 最 小 化 的 搜索 方向 。 9-39 
E9.4 对 习题 E8.3 中 的 函数 ， 从 初始 的 估计 值 = [1 1]7 开始 ， 用 线性 最 小 化 的 最 
速 下 降 法 迭代 两 次 。 写 出 MATLAB 的 M-file 文 件 ， 检 查 答案 。 
E9.5 考虑 下 面 的 函数 ， 
F(x) 二 [1 十 (xi + %2 一 5)?](1 十 (3x, 一 2%2)7] 
Ci) 从 初始 估计 值 ww -[10 10]? 开始， 用 牛顿 法 迭代 一 次 。 
(d) 从 初始 估计 值 x = [2 2]7 开始 ， 重 复 (i) 题 中 的 操作 。 
(iii) 求 函数 的 极 小 点 ， 并 与 前 两 部 分 的 结果 比 校 。 
E9.6 考虑 习题 E8.5 中 的 函数 。 写 出 求 此 函数 的 最 速 下 降 法 和 牛顿 法 的 MATLAB 
M-file 文 件 。 对 不 同 的 初始 值 ， 测 试 算法 的 性 能 。 
E9.7 使 用 共 红 梯度 算法 重 做 习题 E9.4。 对 式 (9.61) ~ (9.63) 中 的 三 种 方法 ， 每 种 方法 
至 少 做 一 次 。 
E9.8 证 明 或 反驳 下 面 的 断言 : 
Zi p, IMEF p, H p, KIEF ps, 则 p, HEF p, 9-40 
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第 10 章 Widrow-Hoff 学 习 算 法 


10.1 目的 


在 前 面 两 章 的 学 习 中 ， 我 们 打下 了 性 能 学 习 的 基础 。 可 以 看 到 ， 网 络 通过 训练 来 优化 其 
性 能 。 在 本 章 中 ， 将 会 把 性 能 学 习 的 原理 用 于 单 层 线性 神经 网 络 。 

Widrow-Hoff 学 习 算 法 是 一 个 近似 最 速 下 降 法 ， 其 中 性 能 指标 是 均 方 误 差 。 这 个 算法 很 
重要 ， 原 因 有 两 个 : 第 一 ， 它 被 广泛 使 用 于 现在 的 信号 处 理应 用 中 ， 其 中 有 几 个 应 用 将 在 本 
章 介绍 ; 第 二 ， 它 是 多 层 网 络 中 BP 算法 的 先驱 (BP 算法 将 在 第 11 章 中 讲述 )。 


10.2 理论 和 实例 


Bernard Widrow FÆ 20 世纪 五 十 年 代 末 便 开始 了 神经 网 络 的 研究 工作 ， 几 乎 在 同一 时 
期 ，Frank Rosenblatt 设计 了 感知 机 学 习 规 则 。 在 1960 年 ，Widrow 和 他 的 研究 生 Marcian 
Hoff SA T ADALINE(ADAptive LInear NEuron， 自 适应 线性 神经 元 ) 网 络 和 一 个 称 为 LMS 
(Least Mean Square， 最 小 均 方 ) 算 法 的 学 习 规则 [WiHo60j] 。 

他 们 的 ADALINE 网 络 与 感知 机 非常 相似 ， 不 同 之 处 在 于 它 的 传输 函数 是 线性 函数 而 不 
是 硬 极 限 函 数 。ADALINE 和 感知 机 均 受 同样 的 局 限 性 的 影响 :它们 只 能 解决 线性 可 分 问 
题 。 但 是 ，LMS 算法 比 感知 机 学 习 规 则 要 强大 得 多 。 感 知 机 规则 能 保证 将 训练 模式 收敛 到 
一 个 可 正确 分 类 的 解 上 ， 但 得 到 的 网 络 对 噪声 敏感 ， 因 为 训练 模式 常 接近 网 络 的 判定 边界 。 
而 LMS 算法 使 均 方 误差 最 小 化 ， 从 而 使 网 络 的 判定 边界 尽量 远离 训练 模式 。 

LMS 算 法 在 实际 中 的 应 用 比 感知 机 学 习 规 则 多 ， 尤 其 是 在 数字 信号 处 理 领 域 。 例 
如 ， 大 多 数 长 距离 电话 线路 使 用 ADALINE 网 络 来 消除 回声 。 本 章 将 在 后 面 详细 讨论 这 些 应 
用 。 

因为 LMS 算法 在 信号 处 理应 用 中 取得 了 巨大 成 功 ， 而 该 算法 在 多 层 网 络 中 则 不 太 成 功 ， 
所 以 在 20 世纪 60 年 代 早 期 ，Widrow 中 止 了 他 在 神经 网 络 方面 的 工作 ， 而 开始 全 力 研究 自 
适应 的 信号 处 理 。 直 到 80 年 代 ， 他 才 重 返 神 经 网 络 领域 ， 并 开始 研究 自 适应 控制 中 神经 网 
络 的 使 用 。 在 研究 中 使 用 了 由 他 最 初 的 LMS 算法 得 到 的 时 间 反 向 传播 法 。 


10.2.1 ADALINE 网 络 


ADALINE 网 络 如 图 10-1 所 示 。 注 意 ， 它 具有 与 第 4 章 中 所 讨论 的 感知 机 网 络 相同 的 基 
本 结构 。 惟 一 的 不 同 点 是 它 使 用 了 一 个 线性 传输 函数 。 
网 络 输出 由 下 式 给 出 : 
a = purelin(Wp + b) = Wp + b (10.1) 
回忆 过 去 对 感知 机 网 络 的 讨论 可 得 到 网 络 输出 向 量 的 第 i 行 元 素 为 : 
a; = purelin(n;) = purelin(;w’p+ bi) = iw'p + b; (10.2) 
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输入 线性 神经 元 





a= purelin(Wp+b) 


图 10-1 ADALINE 网 络 


RE, wh W 的 第 i 行 元 素 组 成 : 
iW = i (10.3) 


X & ADALINE Fi 

为 了 简化 讨论 ， 这 里 考虑 一 个 两 输入 的 单 层 ADALINE 网 络 ， 如 图 10-2 所 示 。 网 络 的 
输出 由 下 式 给 出 ; 

a= purelin(n) = purelin(,w'p + b) = iw'p+ b 


(10.4) 


了 - 
=W p+b = wp, + 2p, * b 


输入 两 输入 神 元 层 
CON 


P 


XXL ALS 


1 
P: Wi2 b 


LS l 
a = purelin(Wp+b) 


图 10-2 两 输入 的 线性 神经 元 


由 第 4 章 知 道 ， 感 知 机 有 一 个 判定 边界 ， 它 由 净 输 入 为 0 的 输入 向 量 所 决定 。 那 么 ， 
ADALINE 是 否 也 有 这 样 一 个 边界 呢 ? BREAN. Gi n = 0， 则 jw p + 8 = 0, 它 定义 
了 如 图 10-3 中 的 一 条 线 。 

图 中 灰色 区 域 对 应 的 神经 元 输出 大 于 0， 白 的 区 域 中 神经 元 输出 小 于 0。 那 么 对 ADA- 
LINE 这 意味 着 什么 呢 ? 它 说 明 ADALINE 网 络 可 将 对 象 分 为 两 类 。 然 而 ， 只 有 对 象 是 线 
性 可 分 时 它 才能 做 到 这 一 点 。 因 此 ， 在 这 一 点 上 ，ADALINE 网 络 具有 和 感知 机 同样 的 限 
9. 
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图 10-3 两 输入 ADALINE 的 判定 边界 


10.2.2 WARE 
前 面 已 看 到 了 ADALINE 网 络 的 性 质 ， 下 面 开始 LMS 算法 的 讨论 。 与 感知 机 规则 一 样 ， 


| LMS 算 法 也 是 有 监督 训练 的 一 个 例子 ， 其 中 ， 学 习 规 则 将 使 用 一 个 正确 的 行为 样本 的 集合 ， 


[ptit lp, tl, Posto! (10.5) 
XH, p, 是 网 络 的 一 个 输入 ，6 是 对 应 的 目标 输出 。 网 络 每 输入 一 个 数据 ， 便 将 网 络 输出 
与 目标 输出 相 比 较 一 次 。 
为 使 均 方 误差 最 小 化 ，LMS 算法 将 调整 ADALINE 网 络 的 权 值 和 偏 置 值 。 这 里 的 误差 指 的 
是 目标 输出 和 网 络 输出 之 差 。 本 节 中 我 们 要 讨论 这 个 性 能 指数 。 首 先 考虑 单 神 经 元 的 情况 。 
为 简化 讨论 ， 我 们 将 所 有 要 调整 的 参数 ， 包 括 偏 置 值 ， 组 成 一 个 向 最 : 


"| (10.6) 
b 


类 似 地 ， 我 们 将 偏 置 值 输入 “1 作为 输入 向 量 的 一 部 分 
Z= [e] (10.7) 





x= 


对 网 络 输出 ， 我 们 通常 用 下 式 来 表示 : 


a = Wp+b (10.8) 
现在 ， 可 以 将 它 写 作 
a = xz (10.9) 
MARZ 这样 ， 我 们 可 以 方便 地 写 出 ADALINE 网 络 的 均 方 误差 的 表达 式 : 
F(x) = Ele] = E[(: - a)] = Ell - x"2?] (10.10) 


其 中 ,期 望 值 在 所 有 输入 /输出 对 上 求 得 。( 这 里 使 用 EL ”J] 来 表示 期 望 值 ， 并 使 用 期 望 的 广 
义 定 义 ， 即 确定 性 信号 的 时 间 平 均值 。 参 见 [WiSt85]j。) 上 式 可 扩展 为 : 
F(x) = E[t? - 21x" z +XTZZT7X] 
= E{t?] - 2x" E[ iz] x  E( zz? |x 


这 可 以 表示 成 下 面 更 方便 的 形式 : 
F(x) = c -2xrh+X7Rx (10.12) 


(10.11) 


其 中 
c = EL2],hs Eltz] BR Elzz’] (10.13) 
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相关 矩阵 ”在 这 里 ， 向 量 h 给 出 输入 向 量 和 对 应 目标 输出 之 间 的 相关 系数 ，R 是 输入 的 
相关 撼 阵 。 和 矩阵 的 对 角 线 元 素 等 于 输入 向 量 元 素 的 均 方 值 。 
等 式 (8.35) 中 的 二 次 函数 为 
1 


F(x) = c+d'x+ FX Ax (10.14) 


将 它 与 等 式 (10.12) 相 比较 ， 我 们 可 以 看 到 ，ADALINE 网 络 的 均 方差 性 能 指数 是 一 个 二 次 
函数 ， 其 中 
d --2hH. A = 2R (10.15) 

这 是 一 个 很 重要 的 结果 。 从 第 8 章 中 我 们 知道 ， 二 次 函数 的 性 质 主 要 取决 于 赫 森 矩阵 
A。 例如 ， 若 赫 森 矩阵 的 特征 值 全 是 正 的 ， 则 函数 有 一 个 惟一 的 全 局 最 小 点 。 

这 里 ， 替 森 和 矩阵 是 相关 矩阵 RMA, HEARERS LEN, RE 
味 着 它们 决 不 会 有 负 的 特征 值 。 但 是 还 有 两 种 可 能 : 若 相关 矩阵 只 有 正 的 特征 值 ， 性 能 指数 
将 有 一 个 惟一 的 全 局 极 小 点 ( 见 图 8-8); 若 相关 矩阵 有 一 些 特征 值 为 0， 性 能 指数 将 有 一 个 
弱 极 小 点 ( 见 图 8-10) 或 没有 极 小 点 ( 见 问题 8-8)， 这 取决 于 是 否 有 向 量 d= - 2h。 

现在 来 确定 性 能 指数 的 驻 点 。 从 前 面 对 二 次 函数 的 讨论 我 们 知道 ， 梯 度 为 : 


VF(x) = V(c4d"x44x7Ax] = d + Ax = - 2h+2Rx (10.16) 
F(X) 的 驻 点 可 以 通过 令 梯 度 等 于 0 来 求 得 ;: 
-2h+2Rx=0 (10.17) 
因此 ， 若 相关 和 矩阵 是 正定 的 ， 则 将 有 一 个 惟一 的 驻 点 ， 它 是 一 个 强 极 小 点 ;: 
x' = RUh (10.18) 


值得 注意 的 是 ， 惟 一 解 的 存在 只 依赖 于 相关 和 矩阵 R。 因 此 ， 输 入 向 量 的 性 质 决 定 了 是 否 
存在 惟一 解 。 
10.2.3 LMS 算法 


前 面 已 分 析 了 性 能 指数 ， 下 一 步 是 设计 一 个 确定 极 小 点 的 算法 。 若 能 计算 出 统计 量 h 和 
入， 就 能 从 式 (10.18) 直 接 求 出 极 小 点 。 若 不 想 计算 R- 1， 可 以 对 由 式 (10.16) 计 算得 来 的 梯 
度 使 用 最 速 下 降 法 。 然 而 ， 通 常 并 不 希望 或 不 方便 计算 h 和 R。 因 而 ， 我 们 将 使 用 一 个 近似 
的 最 速 下 降 法 ， 其 中 使 用 一 个 估计 的 梯度 值 。 
Widrow 和 Hoff 的 主要 观点 是 用 下 式 来 估计 F(x) 的 均 方 误差 : 
F(x) = (1(k) - a(k))? = e?(k) (10.19) 
其 中 均 方 误差 的 期 望 被 第 LRERNHHATRERRE. Am, SKERT, BEATE 
为 : 
VF(x) = Ve(k) (10.20) 
Ve?) lI R 个 元 素 是 关于 网 络 权 值 的 导数 值 ， 第 ( R + 1) 个 元 素 则 是 关于 偏 置 值 的 导 
数值 。 于 是 有 
de? 
[ve()]; = Soh - 


2e(k) ZEE, Lua esu (10.21) 
lj 


及 
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2 
[Ve(k)]g.i = Sek) - 2. (4) 22) (10.22) 


10-7 | TS RUM PAG eC Kk) RUSE BUE. wy ,的 偏 导数 : 


2s Fwy, 
| (10.23) 











= 3v, NP p(k) +b 
其 中 p (BA k GET PRAM BIA i PCR. ESCA: 


mW =- p(k) (10.24) 
类 似 地 可 以 得 到 梯度 的 最 后 一 项 : 
2k) =-1 (10.25) 
注意 p (OM 1 是 输入 向 量 z 的 元 素 ， 因 此 第 上 次 选 代 时 均 方 误差 的 梯度 为 : 
SF(x) = Ve2(k) =- 2e( k)z( k) (10.26) 


现在 我 们 可 以 看 到 用 次 迭代 时 的 单个 误差 来 近似 均 方 误差 的 好 处 ， 如 在 式 (10.19) 
中 。 要 计算 这 个 梯度 的 近似 值 ， 我 们 只 需 用 误差 乘 输 入 。 
VF(x) 的 近似 量 可 被 用 于 最 速 下 降 法 。 根 据 式 (9.10)， 具 有 固定 的 学 习 速 度 的 最 速 下 降 
法 为 
Xia) = Xy - aVF(x) (10.27) 
X-X 


用 式 (10,26) 中 的 YF(x) 代 替 VF(x)， 可 以 得 到 


Xj,1 = Xy + 2ae( k)z(k) (10.28) 

或 
wk +1) = ;wlk) + 2a0e(k) p(k) (10.29) 

和 
b(k +1) = b(k) + 2ae(k) (10.30) 


10-8 | 最 后 两 个 等 式 构成 了 最 小 均 方 (LMS) 算 法 ， 它 称 为 8 规则 或 Widrow-Hoff 学 习 算法 。 
前 面 的 结果 可 加 以 修改 用 来 处 理 有 多 个 输出 的 情况 ， 即 有 多 个 神经 元 ， 如 图 10-1。 更 
PARMA i 行 时 使 用 : 


jWCE +1) = ;wlk) + 2ae; Ck) p(k) (10.31) 
FH, eC) 88 k UGRIOBIIUSS i SICK. SRB i 个 元 素 使 用 
b(k +1) = b;(k) + 2ae;(k) (10.32) 
LMS 算法 LMS FADO ARIS AO: 
Wk +1) = W(k) + 20e(k)p7(k) (10.33) 
和 
b(k +1) = b(k) + 2ae( £) (10.34) 


注意 这 里 误差 e 和 偏 置 值 b 是 向 量 。 
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10.2.4 收敛 性 分 析 


第 9 章 中 已 分 析 过 最 速 下 降 法 的 稳定 性 。 那 里 ， 我 们 发 现 二 次 函数 的 最 大 稳定 学 习 速 度 
为 a<2/ 人 us ， 其 中 和 no 是 赫 森 矩阵 的 最 大 特征 值 。 下 面 我 们 分 析 LMS 算法 的 收敛 性 ， 它 与 
最 速 下 降 法 近似 。 我 们 将 发 现 结果 是 一 样 的 。 

首先 注意 LMS 算法 式 (10.28) 中 ，x; Hdé z(k - 1)，z( 2), «+, z(0) MRR. EB 
定 后 继 的 输入 向 量 是 统计 独立 的 ， 则 x, 独立 于 zk)。 下 面 我 们 将 说 明 ， 对 满 是 这 个 条 件 的 
稳 态 输入 过 程 ， 权 向 量 的 期 望 值 将 收敛 于 

x' = Rh (10.35) 
RRER DIA RE | E e1] 的 解 ( 如 在 式 (10.,18) 中 所 见 的 那样 )。 
回忆 LMS 算法 ( 式 (10.28)): 


Xj,1 = X, + 2ae( K)z(&) (10.36) 
两 边 求 期 望 得 : 
Elx] = Elx] + 2aELe(k)z(k)] (10.37) 
将 误差 用 (OR) -xik RAIE: 
E(xii] = Elx] + 2a{ ELtCk)2(k)] - ELCx £2(5)) C4) ]] (10.38) 
最 后 ， 用 z k) 替换 wi z(k)， 整 理 后 得 ; 
Elx] = Elx,] + 2a{ E[ tz(&)] - EL(zCk)z (kh))x, 11 (10.39) 
由 于 x, 独立 于 z(k), Mg. 
Elx] = Elx] + 2alh - RE[x,]] (10.40) 
即 
E[x,,1] = [I - 2aR] E(x,) + 2ch (10.41) 
当 [I- 2aR] 的 所 有 特征 值 落 在 单位 圆 内 时 ， 此 动态 系统 趋 于 稳定 ( 见 [ Brog91]。 从 第 9 


章 中 知道 ，[I- 2aR] 的 特征 值 将 为 1 - 2w;， 其 中 A; 是 R 的 特征 值 ， 因 此 系统 稳定 的 条 件 
为 : 


1-2a >- 1 (10.42) 
HFA >0, 1-2aX, 总 是 小 于 1。 因 此 ， 稳 定 的 条 件 为 : 
a < LA ,对 所 有 i (10.43) 
或 
O < a < ls (10.44) 


注意 此 条 件 等 价 于 我 们 在 第 9 章 中 推导 出 的 最 速 下 降 法 的 条 件 ， 不 过 在 那里 使 用 的 是 赫 
AEM A 的 特征 值 。 这 里 我 们 用 的 是 输入 相关 和 矩阵 R 的 特征 值 。( 回 忆 A = 2R。) 若 此 稳定 性 
条 件 满足 ， 则 稳 态 解 为 : 

E(x,] = [I - 2cR]E[x,,] + 2oh (10.45) 

或 
E[x,] = R-Ih = x* (10.46) 
因此 ， 每 次 输入 一 个 输入 向 量 得 到 的 LMS 的 解 ， 与 式 (10.18) 中 最 小 均 方 误差 的 解 是 相 


同 的 。 
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为 测试 ADALINE 网 络 和 LMS 算 法 ， 再 考虑 在 第 3 章 中 讨论 过 的 苹果 /橘子 区 分 问题 。 
为 简单 起 见 ， 我 们 假定 ADALINE 网 络 的 偏 置 值 为 0。 
式 (10.29) 中 的 LMS 权 值 更 新 算法 被 用 来 在 网 络 训练 的 每 一 步 中 计算 新 的 权 值 : 
W(k +1) = W(k) + 2ae( k)p' CE) (10.47) 
首先 计算 最 大 稳 态 学 习 速度 o HRD AKER REBT USAC. AE 
果 向 量 以 及 它们 相应 的 目标 输出 为 ; 
1 


1 
la = m E 
-1 


-1 
若 假定 输 和 向量 是 以 相等 概率 随机 产生 的 ， 则 可 以 如 下 计算 输入 相关 矩阵 : 


-1 
T 1 7 l r 
R= Elpp ] = 方 pipi + > PP: 


1 | 1 1 0 -1| (10.49) 
=} -1 ü -1 -1+zl11 -0=|o 1 0 
-1 -1 -1 0 1 


R PREES: 


1 
sen (10.48) 














à 21.0, à 20.0, à 22.0 (10.50) 
因此 ， 最 大 稳 态 学 习 速度 为 


1 1. 
a< y zots (10.51) 


若 保守 些 ， 可 以 取 n= 0.2。( 注 意 ， 在 实际 应 用 中 ， 计 算 R 可 能 是 不 实际 的 ， 这 时 可 通 
过 试 错 的 办 法 来 选择 a 的 值 。 选 择 a 的 其 他 方法 可 参见 [ WiSt85] 。) 
T ”开始 时 ， 我 们 可 将 所 有 权 值 设 为 0， 然后 应 用 输入 po py po p, 等 ， 每 次 输入 给 出 后 
便 计 算 新 的 权 值 。( 不 必 以 交替 的 顺序 给 出 权 值 ， 一 个 随机 的 顺序 就 行 了 。) 给 出 p, (橘子 ) 和 
其 目标 输出 - 1， 我 们 得 到 





an 
o 
= 


1 
a(0) E W(0)p(0) = W(0)p, = [0 0 s. 1 
-1 


=0 (10.52) 





e(0) = 1(0) - a(0) = tı - a(0) =-1-0=-1 (10.53) 
现在 我 们 可 以 计算 新 的 权 和 矩阵 : 
W(1) = W(0) + 2ae(0)p7(0) 
1 T 
= [0 0 ono. -| =[-0.4 0.4 0.4] 
-1 


(10.54) 


下 一 次 给 出 p,( 苹 果 ) 和 它 的 目标 输出 1: 


1 
a(l) = W(1)p(1) = W(1)p, = [- 0.4 0.4 zi 1 | =-0.4 (10.55) 
-1 


# 10 X  Widrow-Hoff 4 4 AK 175 


从 而 ， 误 差 为 


e(1) = t(1)-a(1) = t2 -a@(1) = 1-(-0.4) = 1.4 (10.56) 


现在 我 们 计算 新 的 权 值 ; 
WQ) = W(1) + 2ae(1)p/ (1) 


-[-0.4 0.4 0.4] Senna 


下 一 步 再 次 给 出 橘子 的 值 : 


T 
| = [0.16 0.96 -0.16] (10.57) 
1 


1 


a(2) = W(2)p(2) = W(2)p, = [0.16 0.96 - 016 - ] = — 0.64 (10.58) 


- 1 


误差 为 

e(2) = tQ) - a(2) = tı - a(22 =-1-(-0.64) = - 0.36 (10.59) 
新 的 权 值 为 : 

W(3) = W(2) + 2ae(2)p7(2) = [0.016 1.1040 -0.0160] (10.60) 


若 继续 此 过 程 ， 算 法 将 收敛 于 


Woe) = [0 1 


0] (10.61) 


与 第 4 章 中 由 感知 机 学 习 规 则 得 到 的 结果 相 比较 。 可 以 注意 到 ，ADALINE 产生 和 第 3 
章 中 为 苹果 /橘子 问题 设计 的 相同 的 判定 边界 。 这 个 边界 处 于 两 个 参考 模式 的 中 间 。 感 知 机 
规则 不 产生 这 样 一 个 边界 。 这 是 因为 ， 尽 管 一 些 模式 可 能 接近 于 边界 ， 一 旦 模式 被 正确 地 分 
类 ， 感 知 机 规则 便 中 止 了 。LMS 算法 使 均 方 误差 最 小 化 ， 因 而 它 尽力 使 判定 边界 远离 参考 


模式 。 
10.2.5 自 适应 滤波 


正如 我 们 在 本 章 开 始 时 提 到 的 ，ADALINE 网 
络 具 有 和 感知 机 网 络 相同 的 限制 ; 它 只 能 解决 线 
性 可 分 问题 。 尽 管 有 此 缺陷 ，ADALINE 的 应 用 范 
围 仍 比 感知 机 网 络 广 得 多 。 事 实 上 可 以 有 把 握 地 
说 ， 它 是 实际 应 用 中 使 用 最 广 的 神经 网 络 之 一 。 
ADALINE 的 一 个 主要 应 用 领域 便 是 自 适 应 滤波 ， 
现在 它 仍 被 广泛 地 使 用 着 。 本 节 中 我 们 将 介绍 一 
个 自 适应 滤波 的 例子 。 

HAERE ”为 了 将 ADALINE 网 络 用 作 自 
适应 滤波 器 ， 我 们 先 介绍 一 个 新 的 构造 块 : 抽 头 
延迟 线 。 图 10-4 所 示 为 带 有 R 个 输出 的 抽 头 延迟 
线 。 

信号 从 左边 输入 。 在 延迟 线 的 输出 端 是 一 个 


be | oe | p Pl = yK 


] Pk) = y(k- 1) 


DI 
D| 


pk) = y(k-R+1) 


图 10-4” 抽 头 延 迟 线 
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RR 维 的 向 量 ， 包 含 当 前 时 刻 的 输入 信号 和 分 别 延 迟 了 1 到 R - 1 时 间 步 的 输入 信号 。 
自 适 应 滤波 器 ” 若 将 一 个 延迟 线 与 一 个 ADALINE 网 络 结合 起 来 ， 我 们 就 能 得 到 一 个 自 
适应 滤波 器 ， 如 图 10-5 所 示 。 滤 波 带 的 输出 为 ; 


R 
alk) = purelin(Wp +b) = >) w,ylk-i+1) +5 (10.62) 
isl 


输入 ADALINE 


xk) 





a(k) = purelin (Wp(k) + b) 


[10-14 图 10-5 自 适应 滤波 器 ADALINE 


读者 要 是 对 数字 信号 处 理 熟悉 的 话 ， 可 以 看 到 图 10-5 中 的 网 络 就 是 一 个 有 限 脉冲 响应 
(FIR) 滤 波 器 [ WiSt85]。 数 字 信和 号 处 理 领 域 的 内 容 已 超出 本 书 的 范围 ， 不 过 我 们 仍 可 以 通过 
一 个 简单 但 实用 的 例子 来 展示 这 个 自 适应 滤波 器 的 用 处 。 

1. 自 适应 噪声 消除 

自 适应 滤波 器 可 以 通过 各 种 各 样 的 办 法 来 使 用 。 下 面 的 例子 中 ， 我 们 用 它 来 消除 噪声 。 
你 最 好 花 一 点 时 间 来 看 看 这 个 例子 ， 因 为 它 与 你 所 期 望 的 有 点 不 一 样 。 例 如 ， 网 络 力求 将 其 
减 至 最 小 的 输出 “误差 ”"， 实 际 上 却 是 我 们 试图 要 恢复 的 信号 的 近似 ! 

假设 没有 一 个 医生 正 试图 检查 一 个 心烦 意 乱 的 研究 生 的 脑 电 图 (EEG)。 他 发 现 要 看 的 信 
号 混杂 了 60Hz 噪声 源 发 出 的 噪声 。 他 以 在 线 的 方式 检查 病人 ， 想 观看 到 能 够 得 到 的 最 好 信 
号 。 图 10-6 表示 如 何 用 一 个 自 适 应 滤波 器 来 除去 噪声 信号 。 

所 图 所 示 ， 原 始 60Hz 信和 号 样本 输入 到 一 个 自 适 应 滤波 器 中 ， 并 通过 调整 它 的 元 件 来 使 
“误差 ”e 达到 最 小 。 滤 波 器 的 期 望 输出 是 被 干扰 了 的 EEG 信号 :。 滤 波 器 尽量 复制 这 个 被 干 
扰 了 的 信号 ， 然 而 它 仅 知道 初始 的 噪声 源 ，。 因 此 ， 它 只 能 复制 上 中 与 "线性 相关 的 部 分 ， 

即 m。 结 果 ， 自 适应 滤波 器 试图 模拟 噪声 路 径 滤 波 器 ， 因 而 滤波 器 的 给 出 a 将 接近 于 干扰 
噪声 m 。 通 过 这 样 的 途径 ,误差 。 将 接近 于 未 被 干扰 的 初始 EEG fi so 
”在 下 面 这 个 单 正弦 波 噪 声 源 的 简单 情况 下 ， 一 个 有 两 个 权 值 和 没有 偏 置 值 的 神经 元 就 是 
实现 需要 的 滤波 器 了 。 滤 波 咒 的 输入 是 噪声 源 的 当前 值 和 前 一 个 值 。 这 样 有 两 输入 的 滤波 器 
可 以 使 噪声 v 以 所 期 望 的 方式 被 削弱 和 发 生 相 移 。 滤 波 器 如 图 10-7 所 示 。 
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EEG 信号 混杂 的 信和 号 恢复 信和 号 
S t e 





60Hz 的 噪声 源 


自 适 应 滤波 器 调整 为 最 小 误差 
(从 而 将 60 Hz 的 噪声 从 混杂 信号 中 消除 


图 10-6 ”噪声 消除 系统 





alk) = wi v(k) + wi; v(k- 1) 


图 10-7. 用 于 噪声 消除 的 自 适应 滤波 器 


可 以 用 本 章 中 前 面 所 得 到 的 数学 关系 式 来 分 析 这 个 系统 。 首 先 需 要 得 到 输入 相关 矩阵 R 
和 输入 /目标 互相 关 向 量 h: 


R= [z z7],h = Elt z] (10.63) 
本 例 中 ， 输 入 向 量 由 噪声 源 的 当前 值 和 前 一 个 值 给 出 : 
v(k) 
«o ay (10.64) 
而 目标 是 当前 信号 和 被 过 滤 的 噪声 信和 号 之 和 ; 
t(k) = s(k) + m(k) (10.65) 
RA 的 表达 式 展开 可 以 得 到 ; 
E[s5?(&)] El v(k)v(k - 1)] 
7 P —-1)o(k)]  Elv?’(k-1)] | (10.66) 


178. FERE HAE 
E[(s(k) + mCE))v(k)] 
ND MALUM (10.67) 
要 得 到 这 两 个 量 的 特定 值 ， 必 须 定义 噪声 信号 v, EEG 信号 和 被 过 滤 的 噪声 m。 这 
里 我 们 假定 : EEG 信和 号 是 白 的 (一 个 时 间 步 与 下 一 时 间 步 不 相关 ) 随 机 信号 ， 且 均匀 分 布 于 
-0.2 和 +0.2 之 间 ， 品 声 源 (以 180Hz 频率 采样 的 60Hz 正弦 波 ) 为 ， 


v(k) = 1. 2sin( 254) (10.68) 
干扰 EEG 信号 的 要 被 过 滤 的 噪声 是 按 1/10 削减 的 且 相 移 了 -> 的 噪声 源 : 
m(k) = 0. 12sin( 255 + z) (10.69) 
现在 可 计算 输入 相关 矩阵 R 的 各 个 元 素 : 
E[v(k)] = (1.2) $5 (sin( 254) )’ = (1.2)20.5 = 0.72 (10.70) 
El v*(k -1)] = El v?(k)] = 0.72 (10.71) 
E[v(k)v(k - 1)]z ix. asin 224) (1.2sin 20 =) 
kel 
(10.72) 
= (1.2)0. Seos{ 27) = - 0.36 
(这 里 我 们 使 用 了 一 些 三 角 恒 等 式 )。 
于 是 R 为 
R- | 0.72 70:35] (10.73) 
-0.36 0.72 
可 以 用 类 似 的 办 法 求 得 h。 首 先 考虑 式 (10.67) 中 上 面 一 项 : 
[10-17] E[(s(k) + m(k))v(k)] = ElsCk)vCE)] + EL mCE) vCÀX)] (10.74) 
因为 s(k) 和 v (上) 独立 且 均 值 为 ? 所 以 右边 第 一 一 项 为 0。 第 二 项 也 为 0; 
El m(k) v(k)] .l (o. 12sin( 285 + zr. 2sin 22%) = 0 (10.75) 


因此 ,bh 的 第 一 个 元 素 为 0。 
再 考虑 的 第 二 元 素 : 
E[(s(k) + m(k))v(k -1)] = E[s(k)v(k -1)] + Elm(k)v(k — 1)] (10.76) 
如 同 h 的 第 一 个 元 素 ， 因 为 ;(k) 与 v(% -1) 独 立 且 均 值 为 0， 故 右边 第 一 项 为 0。 第 二 项 为 : 


E[ m(k)v(k-1)] = + (o. 12sin( 255, Z) ) (1.2sin 250—212) = - 0.0624 


(10.77) 


m, hy 


h = | 0 | (10.78) 
- 0.0624 


权 值 的 最 小 均 方 误差 由 式 (10.18) 给 出 : 


0.72 -0.36 | | 0 | Bel 
* = -1 - z 10.79) 
x =Rh NA 0.72 - 0.0624 - 0.1156 ( 
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现在 ， 求 得 最 小 值 时 我 们 将 得 到 哪 种 误差 呢 ? 为 求 出 这 个 误差 ， 由 式 (10,12) 得 : 
F(x) = c - 2x7h + X7Rx (10.80) 
我 们 已 求 得 x* ，h 和 及 ， 因 此 只 需求 c; 
c = EL)É(k)] = E[(s(k) + m(k))?] 
= El s?(k)] + 2E[s(k)m(k)] + El m*(k)] 
由 于 s(%) 与 m(k) 独 立 且 均 值 为 0， 因 而 中 间 项 为 0。 第 一 项 为 随机 号 的 期 望 值 ， 计 算 如 
T: 


(10.81) 





E02] = ata | as - wal, = 0.0133 (10.82) 
被 过 滤 的 噪声 的 均 方 值 为 B 
El m?(k)] = i (0. 12sin( 27 + zy - 0.0072 (10.83) 
从 而 
c = 0.0133 + 0.0072 = 0.0205 (10.84) 
将 x* ，h 和 R 代 人 式 (10.80) 中 得 到 最 小 均 方 误差 
F(x") = 0.0205 _ 2(0.0072) + 0.0072 = 0.0133 (10.85) 


最 小 均 方 误差 与 EECG 信号 的 均 方 值 相 同 。 这 正 是 我 们 所 期 望 的 ， 因 为 这 个 自 适 应 品 声 
消除 器 的 “误差 "事实 上 是 被 恢复 的 EEG 信号 。 

图 10-8 说 明了 学 习 速度 a=0.1 时 LMS 算法 在 权 值 空间 中 的 轨迹 。 在 这 个 模拟 中 ， 初 
始 时 系统 的 权 值 w ;和 w 1 ;分 别 被 随意 地 设 为 0 和 - 2。 从 图 中 可 以 看 到 ，LMS 的 轨迹 看 
起 来 像 有 噪声 时 的 最 速 下 降 法 。 














Æ 10-8 a=0.1 时 LMS 的 轨迹 
注意 在 图 中 ， 轮 廊 线 表示 了 赫 森 矩阵 (A = 2R) 的 特征 值 和 特征 向 量 为 : 


- 0.7071 
0.7071 


(参考 第 8 章 中 对 赫 森 矩阵 的 特征 系统 的 讨论 。) 
若 学 习 速 度 减 小 ，LMS 的 轨迹 将 比 图 10-8 中 的 更 光滑 ， 但 学 习 过 程 进行 得 更 慢 ; 者 学 


- 0.7071 
| (10.86) 


| »À2 z 0.72,2; = | 0.7071 


Al = 2.16,% = | 
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习 速 度 增加 ， 轨 迹 将 带 更 多 的 锯齿 状 旦 呈现 振荡 。 事 实 上 ， 如 本 章 开 始 时 所 述 ， 若 学 习 速 度 
增加 太 大 ， 系 统 将 根本 不 收敛 。 最 大 稳 态 学 习 速 度 为 a < 2/2.16=0.926。 

为 了 判别 噪声 消除 器 的 性 能 ， 考 虑 图 10-9。 这 幅 图 说 明了 滤波 器 如 何 自 适应 以 消除 噪 
声 。 上 面 的 图 为 恢复 后 和 初始 时 的 EEG 信号。 开始 时 ， 恢 复 后 的 信号 与 初始 的 EEC 信号 极 
不 相似 ， 滤 波 器 用 了 约 0.2 秒 (a=0.1) 的 时 间作 调整 ， 给 出 一 个 可 接受 的 恢复 信和 号。 实验 的 
后 半 段 中 ， 初 始 信 和 号 和 恢复 后 的 信号 之 间 的 均 方差 为 0.002。 与 信号 的 均 方 值 0.0133 相 比 ， 
这 个 结果 是 不 错 的 。 初 始 信号 和 恢复 后 的 信号 之 间 的 差 表示 了 下 面 的 图 中 。 


2 初始 的 和 恢复 后 的 EEG 信 号 


EE6 信 号 减 去 恢复 后 的 信号 





0 0.008 01 015 02 025 03 035 0.4 0.45 0.5 


时 间 
图 10-9 干扰 噪声 的 自 适应 过 滤器 消除 
你 也 许 会 奇怪 误差 为 什么 不 变 为 0。 这 是 因为 LMS 算法 是 一 个 近似 的 最 速 下 降 法 ; 它 
使 用 梯度 的 估计 值 而 不 是 真正 的 梯度 值 来 更 新 网 络 权 值 。 梯 度 的 估计 值 是 有 品 声 的 梯度 值 。 
这 使 得 即使 均 方 误差 达到 最 小 时 ， 权 值 仍 会 继续 作 小 小 的 改变 。 从 图 10-8 中 可 看 到 此 效 


应 。 


试验 使 用 此 自 适 应 噪声 消除 滤波 器 请 用 Neural Network Design Demonstration 
Adaptive Noise Cancellation(nndl0nc)。 一 个 更 复杂 的 嗓 声 源 和 实际 的 EEG 数据 


用 在 Electroencephalogram Noise Cancellation (nndl0eeg) 的 演示 中 。 





2. 回声 消除 

自 适 应 噪声 消除 的 另 一 个 更 重要 的 实际 应 用 是 回声 消除 。 在 “混合 "设备 中 阻抗 的 不 匹配 
会 在 长 途 电话 线 和 用 户 的 本 地 线 之 间 形 成 接头 ， 这 使 得 长 途 电话 线 上 的 回声 很 普遍 。 在 打 国 
际 电 话 时 你 可 能 就 感觉 过 这 类 效应 。 

图 10-10 说 明了 如 何 用 一 个 自 适 应 噪声 消除 滤波 器 来 减少 这 些 回 声 [ WiWi85]。 在 长 途 
线 的 末端 ， 到 来 的 信和 号 被 送 到 一 个 含有 自 适 应 滤波 器 的 混合 设备 。 滤 波 器 的 目标 输出 是 混合 
设备 的 输出 ， 因 而 滤波 器 将 消除 混合 输出 中 与 输入 信号 相关 的 那 部 分 信号 ， 即 回声 。 
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图 10-10 回声 消除 系统 
10.3 小 结 
ADALINE 
a= purelin(Wp+b) 
均 方 误差 
F(x) = Ele] = E[(t - ay] = E[(t - x?zY] 
F(x) = c -2xrh+X7Rx 
c= E[t], hs Eltz] 有 R= Elzz™] 
惟一 的 最 小 值 若 存 在 ， 则 为 x* = R-'h。 这 里 :| a zu 
LMS 算法 
W(k +1) = Wk) + 2ae( k)p^ CX) 
blk +1) = b(k) + 2ae( k) 
收敛 点 
x' = R^h 
稳 点 学 习 速 度 


0 < a < Vas Cmar 是 及 的 最 大 特征 值 ) 
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抽 头 延迟 线 
p(k) = y(k) 
p(k) = yk - 1) 
PR(O = X(k - R4 1) 
自 适 滤波 器 ADALINE 
输入 ADALINE 
yk) 
alk) = purelin (Wp(k) +b) 
R 
a(k) = purelin(Wp + b) = 2 wii y(k - i+1) +b 
10.4 例题 
P10.1 考虑 图 10-11 中 的 ADALINE 滤波 器 。 
假定 
V, = 2, Wi 2 三 一 1, Wi = 3 
且 输 入 序列 为 


ty(k)} = i7*+,0,0,0,5, - 4,0,0,0,--:] 
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输入 ADALINE 
»(k) 





N7 Na 
a(k) = purelin (Wp(k) +b) 


图 10-11 ADALINE 滤波 器 


其 中 y(0) =5，y(1) = -4， 等 等 。 
(i) k=0 以 前 滤波 器 的 输出 是 什么 ? 
(ii) 从 =0 到 上 =5， 滤 波 器 的 输出 是 什么 ? 
(iii) y(0) 对 输出 的 影响 有 多 长 时 间 ? 
解 
(i) 在 =0 以 前 输入 了 3 个 0， 因 而 输出 为 0。 
(ii) 在 上 =0 时 ， 数 字 “57" 被 输入 滤波 器 ， 它 将 被 乘 以 w 1!， 其 值 为 2， 因 而 a(0) = 


10。 这 可 以 通过 矩阵 操作 得 到 ; 
y(0) 5 
a(0) = Wp(0) = [wi wiz ZH Ds-[2 -1 3] | = 10 
y(- 2) 0 








类 似 地 ， 可 以 计算 下 一 个 输出 为 


-4 
a(1) = Wp(1) 2[2 -1 s 5 |-n 
0 


0 
a(2) = Wp(2) = [2 -1 ns) = 
5 


0 
a(3) = Wp(3) = [2 -1 a| 0 | =- 12 


0 
0 


其 余 的 输出 将 为 0。 
(iii) y(0) 的 影响 从 大 = 0 持续 到 有 = 2， 因 此 它 将 影响 3 个 时 间 区 间 。 这 对 应 于 这 个 滤 


波 器 的 脉冲 响应 时 间 长 度 。 
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P10.2 假定 要 设计 一 个 ADALINE 网 络 来 区 分 和 输入 向 量 的 不 同类 别 。 首 先 使 用 如 下 的 类 别 ， 
GT: p,=[1 1]7 且 m=[-1 -1]7 

HFT: p,-[2 2]7 

Ci) 能 否 设 计 一 个 ADALINE 网 络 来 作 这 样 一 个 区 分 ? 

(ii) 车 对 (i) 题 的 回答 为 “是 ”"， 那么 什么 权 值 和 偏差 集合 可 被 使 用 ? 
再 考虑 下 面 不 同 的 类 别 ; 

GM: pl=[1 1]7 且 m=[l -1]" 

İNV: p=[1 047 

(ii) 能 否 设计 一 个 ADALINE 网 络 来 作 这 样 一 个 区 分 ? 

(iv) 若 对 (这 ) 题 的 回答 为 “是 ”， 则 可 以 使 用 什么 权 值 和 偏 置 值 集合 ? 
解 

(i) 输入 向 量 画 在 图 10-12 中 。 





图 10-12 ”例题 P10.2 (i) 的 输入 向 量 
图 中 的 直线 是 成 功 区 分 这 两 个 类 别 的 判定 边界 。 由 于 它们 是 线性 可 分 的 ， 因 而 ADA- 
LINE 可 以 完成 此 任务 。 
(it) 判定 边界 经 过 点 (3，0) 和 (0，3)。 这 两 点 就 是 交点 - b/w, HL - b/w WIE, 
下 面 的 解 可 满足 要 求 ; 
bz3,w,,--l,w,5--1 
注意 , ADALINE 的 输出 为 正 或 零 ， 则 输入 向 量 为 类 别 工 的 ; 若 输出 为 负 ， 则 输入 向 
量 为 类 另 卫 的 。 这 个 解 也 提供 误差 ， 因 为 判定 边界 分 开 p, 和 p, 之 间 的 线 。 
(iii) 被 区 分 的 输入 向 量 如 图 10-13 中 所 示 。 图 中 的 向 量 不 是 线性 可 分 的 ， 因 此 ADA- 
LINE 网 络 不 能 对 它们 进行 区 分 。 
(iv) 如 (过 题 中 所 述 ，ADALINE 不 能 完成 任务 ， 因 此 没有 满足 要 求 的 权 值 和 偏 置 值 集合 。 
P10.3 假定 有 如 下 的 输入 /目标 输出 对 : 


is] Lnd 


这 些 模 式 以 相等 的 概率 产生 ， 它 们 可 用 来 训练 一 个 无 偏 置 值 的 ADALINE 网 络 。 均 方 误 
差 的 性 能 曲面 大 体 是 什么 ? 
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图 10-13 ”例题 P10.2(iii) 的 输入 向 量 
解 . 
STEHEN. BXOO.10, ERER A RRO 
F(x) = c -2xrh+X7Rx 
因此 需要 计算 ce, h RI R. 


每 个 输入 出 现 的 概率 为 0.5， 因 此 每 个 目标 输出 的 概率 也 为 0.5。 于 是 ， 目 标 输出 的 平 
方 的 期 望 值 为 


c = EL £C] = (1)*(0.5) + (~ 1)*(0.5) = 1 
类 似 地 ， 输 入 和 目标 输出 之 间 的 相互 关系 为 
1 0 
soscat] -D 
Ba, MARERE R 为 
R= E[zz^] = p,pí (0.5) + pp (0.5) 


- esa uft ju -]-[5 1] 


因此 ， 均 方 误差 的 性 能 指数 函数 为 
F(x) = c -2xrh + x^ Rx 





h = E(iz) = c.a)! 





0 1 0 wi 
= 1-2 wi wi,2] i} 7 [wia aul 0 11| wiz, 
= 1-2w,.+ wi + wi 


F(x) 的 赫 森 矩阵 等 于 2R， 其 两 个 特征 值 均 为 2。 因此 ， 性 能 曲面 的 轮廓 线 将 是 圆 。 为 
了 找到 轮廓 线 的 中 心 ( 极 小 点 ) ， 需 要 解 方程 (10.18): 


<“ -am 


因此 ， 极 小 点 在 Wi =0, Wi 2 lo 结果 的 均 方 误差 性 能 曲面 如 图 10-14 所 示 。 
P10.4 再 次 考虑 例题 P10.3 PAR. HA LMS 算法 对 网 络 进行 训练 ， 初 始 值 没 为 0， 
学 习 速 度 设 为 a=0.25。 在 训练 中 每 个 参考 模式 只 使 用 一 次 。 在 每 步 中 画 出 判定 边界 。 
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10-14 例题 P10.3 中 F(x) 的 轮廓 线 
解 
假定 首先 输入 pi 。 网 络 输 出 、 误 差 和 新 的 权 值 计算 如 下 : 
a(0) = purelin| to o|!J]- 0 
e(0) = 1(0) -a(0) = 1-0=1 
W(1) = W() + 2ae(0)p(0)7 = [0 o] 2( 二 DO[ 1] = [4 
”与 这 些 权 值 关联 的 判定 边界 如 图 10-15 所 示 。 下 面 输入 第 二 个 输入 向 量 : 


a(1) = purein | [3 i! |=0 


e(1) = t(1) - a(1) =-1-0=-1 
T 1 1 1 
W(2) = WO) + 2ae(Dp(D7 = [2. 1]ex(i)- 08 -1 = o 0 


与 这 些 权 值 相关 联 的 判定 边界 如 图 10-16 所 示 。 这 个 边界 表明 真正 的 约定 。 它 正好 处 于 
输入 向 量 的 中 间 。 可 以 验证 ， 当 输入 每 一 个 输入 向 量 ， 网 络 将 产生 正确 的 目标 输出 。( 若 交 
换 与 两 个 输入 向 量 相关 联 的 目标 输出 ， 什 么 权 值 集合 是 最 优 的 ?) 


Qj 
— 1 





图 10-15 图 10-16 


P10.5 考虑 例题 P10.3 和 P10.4 中 系统 的 收敛 性 。LMS 算 法 的 最 大 稳 态 学 习 速 度 是 多 少 ? 


解 
LMS 的 收敛 性 由 学 习 速度 a 所 决定 ， 它 不 应 超过 R 的 最 大 特征 秆 的 倒数 。 我 们 可 用 
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MATAB 找到 这 些 特征 值 来 确定 此 速度 限制 。 
[V, D] = eig (R) 


V = 
1 0 
0 1 
D = 
1 0 
0 1 


矩阵 D 的 对 角 线 元 素 给 出 了 特征 值 1 和 1， 矩阵 v 的 列 为 特征 向 量 。 顺 便 注意 ， 特 征 向 
量 的 方向 与 图 10-14 中 所 示 的 相同 。 

最 大 特征 值 为 ,ss =1， 它 设 定 了 学 习 速 度 的 上 限 : 

a < 1 = 1/1=1 

前 一 例题 中 建议 的 学 习 速 度 为 0.25， 你 (也 许 ) 可 发 以 发 现 LMS 算法 收敛 得 很 快 。 当 学 
习 速 度 为 1.0 甚至 更 大 时 会 发 生 什么 情况 呢 ? 

P10.6 考虑 图 10-17 中 的 自 适应 ADALINE 自 适 应 滤波 器 。 这 个 滤波 器 的 目的 是 从 前 两 
个 值 中 预测 输入 信号 的 下 一 个 值 。 假 定 输入 信号 是 一 个 稳 态 随机 过 程 ， 其 自 相关 函数 为 : 

C,(n) = Ely(k)yCk + n)] 
C,(0) 23, COD) =-1, C,(2)=-1 

(i) 画 出 性 能 指数 ( 均 方 误差) 的 轮廓 线 图 。 

(ii) LMS 算法 的 最 大 稳 访 学 习 速 度 (a) 是 多 少 ? 

(iii) 假定 a 的 值 很 小 。 从 初始 值 W(0) = [0.75 0]? 开始， 画 出 LMS 算法 中 权 值 的 变 
化 路 径 图 ， 解 释 画 出 此 路 径 的 过 程 。 





a(k) = wi, yk - 1) + wi; y(k- 2) 


图 10-17 自 适 应 预测 器 


解 
(i) 首先 需要 求解 性 能 指数 以 及 赫 森 和 矩阵 的 特征 值 和 特征 向 量 。 注 意 到 输入 向 量 为 
_ y(k - 1) 
z(k) = p(k) = b | » 


考虑 性 能 指数 。 由 (10.12) 式 得 
F(x) = c - 2x"h+ x^ Rx 
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性 能 指数 中 的 常量 计算 如 下 ; 
c= E([t?(k)] = El y?(k)] = C,(0) = 3 
R = E(z"]= e| y - 1) y(k- Dy c» 
y(k - DyCk - 2) yk -2) 


(60 060 } |3 -1 
LGA) €,(0)} [-1 3 


h- Ela- roren | -| 2 | _ [=] 


y(k)y(k - 2) c,(2) | ^ 1-1 
BRET 3 -1][-1 3/8 1/8][-1 - 1/2 
x aen. [ 7, 3 | [zi] [5 M - [5] 
赫 森 矩阵 为 
V2F(x) = A = 2R = | j 4| 
现在 可 求 得 特征 值 : | 
[A - All = Mn ud = - 124 +32 = (A-8)(A- 4) 
于 是 
A = 4,4) = 8 
用 
[A - AI]v = 0 


求 特征 向 量 对 A, = 4, 


对 )2=8， 
-2 -2 -1 
= MED »«| 1 | 

因此 ，F(x) 的 轮廓 线 将 是 椭圆 ， 每 个 椭 贺 的 长 轴 
沿 着 第 一 个 特征 向 量 的 方向 ， 因 为 第 一 个 特征 值 的 值 
By), BIB x* ， 如 图 10-18 所 示 。 

可 以 写 一 个 MATLABM M-file 文 件 画 出 F(x) 的 
轮廓 线 图 来 检验 此 结果 。 

(ii) 最 大 稳 态 学 习 速 度 是 R 的 最 大 特征 值 的 倒 
数 ， 也 是 赫 森 矩阵 VY F(x) = A 的 最 大 特征 值 的 倒数 的 
两 倍 : 











a < 2 = 2/8 = 0.25 
(dii) LMS 算法 接近 于 最 速 下 降 法 ， 因 此 ， 对 小 的 
学 习 速 度 ， 轨 迹 线 将 与 轮廓 线 垂直 ， 如 图 10-19 所 示 。 图 10-18 例题 P10.6 中 的 误差 轮廓 线 


Wii 
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图 10-19. LMS 权 值 的 轨迹 10-33 


P10.7 一 个 飞机 中 的 飞行 员 正 通过 飞机 座舱 中 的 麦克 风 讲 话 。 由 于 飞行 员 的 话音 信号 
被 到 达 麦 克 风 的 飞机 发 动机 噪声 所 干扰 ， 控 制 塔 内 的 空中 交通 控制 员 不 能 接收 到 正确 的 话 
音 。 你 能 设计 一 个 自 适应 的 ADALINE 滤波 器 ， 从 而 帮助 减 小 控制 塔 收 到 的 信号 的 噪声 吗 ? 
解释 你 的 系统 。 

解 

输入 到 麦克 风 中 的 发 动机 噪声 可 以 通过 图 10-20 中 的 自 适应 过 滤 系 统 减 小 到 最 低 限 度 。 
通过 座舱 中 的 一 个 麦克 风 ， 发 动机 噪声 的 一 个 样本 被 输入 到 一 个 自 适 应 滤波 合 中 。 滤 波 器 期 
望 的 输出 值 是 从 飞行 员 的 麦克 风 来 的 被 干扰 了 的 信号 。 滤 波 器 试图 将 “误差 "信和 号 减 至 最 小 。 
它 能 做 的 只 是 将 被 干扰 了 的 信号 中 与 发 动机 噪声 线性 相关 的 部 分 减 去 (假定 发 动机 噪声 和 飞 
行 员 的 话音 不 相关 )。 尽 管 发 动机 蝶 声 和 飞行 员 的 声音 信和 号 一 起 进入 飞行 员 的 玫 克 风 ， 系 统 的 
结果 却 是 送 到 控制 塔 的 清楚 的 话音 信号 。( 参 见 [WiSt85] 中 对 类 似 的 噪声 消除 系统 的 讨论 。) 











G — 
s , ”混杂 的 信号 KARRI 
飞行 员 ”语音 信号 * 


自 适应 过 滤 噪 声 ， “误差 ” 
用 于 消除 混杂 的 
信和 号 






飞机 发 动机 噪声 源 


图 10-20 从 飞行 员 的 话音 信号 中 过 滤 发 动机 噪声 
P10.8 这 是 与 例题 P4.3 和 P4.5 类 似 的 一 个 分 类 问题 ， 但 是 要 使 用 一 个 ADALINE 网 
络 和 LMS 学 习 规则 而 不 是 感知 机 学 习 规 则 。 首 先 描述 问题 。 
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11034] 这 个 分 类 问题 中 有 4 类 输入 向 量 ， 分 别 为 : 


suple B] [ee 
EX -| ]us]]] 类 4:|p = [alela 


使 用 LMS 学 习 规则 训练 一 个 ADALINE 网 络 ， 以 解决 此 问题 。 假 定 每 种 模式 发 生 的 概 
率 均 为 1/8。 

解 

首先 画 出 输入 向 量 ， 如 图 10-21 空心 圆 表示 类 1 的 向 量 ， 空 心 方块 表示 类 2 的 向 量 ， 实 
心 圆 表 示 类 3 的 向 量 ， 实 心 方块 表示 类 4 的 向 量 。 





10-21 例题 P10.8 中 的 输入 向 量 


我 们 将 使 用 与 例题 P4.3 中 所 使 用 的 相 类 似 的 目标 向 基 ， 但 是 用 目标 输出 - 1 代替 目标 
输出 0。( 感 知 机 只 能 输出 0 和 1) 因 而， 训练 集合 为 


bes ble 
[5e n obe lil] 
ss Ld] be LI 
OM eol 


so 


我 们 已 差不多 准备 好 用 LMS 规则 训练 一 个 ADALINE 网 络 了 。 学 习 速 度 设 为 a= 0.04， 
根据 下 标的 顺序 依次 输入 各 个 输入 向 量 。 第 一 次 迭代 为 
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o][i 1 2 
ale - [7] 

e(0) = t(0) - a(0) = IM -[2] -| -| 
W(1) = W(0) + 2ae(0)p7(0) 


1 0 -3 0.76 -0.24 
-| | «20.00| - 3] is 0.76 | 








a(0) = purelin(W(0)p(0) + b(0)) = purelin| o 


e] 


第 二 次 迭代 为 
a(1)- purelin (WC 1) pC1) + b(1)) 
Lui | 0.76 zen] [p75]). [io] 
= PUT 0.24 0.76 *lo.761/ ^ 12.04 
oe» [1t] E12 
W(2) = W(1) + 2ae( Dp! (1) 


0.76 -0.24 | | | 
- 2(0.04 1 2] = 
| 0.76 | * 200-04) 494] 2 





0.5968 nnd 
- 0.4832 0.2736 
onl Ml 
- 3.04] 10.5168 


0 7| + 2(0.04)| 
若 继续 下 去 直到 权 值 收敛 ， 则 可 以 得 到 
Ww) -| bs 70.093 | Cæ) = [003] 
1 0.1667 - 0.6667 J” ~ 10.1667 
得 到 的 判定 边界 如 图 10-22 所 示 。 将 此 结果 与 例题 P4.5 中 由 感知 机 学 习 规 则 得 到 的 最 
终 判定 边界 (图 4-25) 相 比较 。 当 所 有 的 模式 被 正确 分 类 时 ， 感 扼 机 规则 便 停止 了 训练 。 
LMS 算法 使 判定 边界 尽 可 能 远离 被 分 类 的 模式 。 


b(2) = b(1) + 2ae(1) = |? “76 





图 10-22 例题 P10.8 的 最 终 判 定 边 界 
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P10.9 重 做 在 Widrow 和 Hoff 在 1960 年 的 经 典 论文 中 的 模式 识别 问题 [WiHo60]。 他 们 
想 设 计 一 个 能 将 图 10-23 中 的 6 个 模式 分 类 的 识别 系统 。 


TEE 





= TEE 
T G F 
目标 60 0 -60 
110-37 图 10-23 ”模式 和 它们 的 分 类 目标 


这 些 模式 表示 字母 T，G 和 下 ， 上 面 一 排 是 它们 的 原始 形式 ， 下 面 一 排 则 是 将 它们 移动 
后 的 形式 。 这 些 字母 的 分 类 目标 分 别 为 60,，0 和 - 60。(Widrow 和 Hoff 使 用 60, 0 和 -60 
的 原因 是 为 了 较 好 地 在 他 们 使 用 的 仪器 表面 显示 他 们 的 网 络 输 出 结果 。) 目 标 是 训练 网 络 ， 使 
SER 6 个 模式 划分 到 相应 的 下 T，G 和 下 组 中 。 


解 
模式 图 中 对 黑色 的 方块 赋值 + 1， 白 色 的 方块 赋值 - 1。 首 先 我 们 将 每 个 字母 转换 为 一 个 


16 元 素 的 向 量 。 转 换 时 从 左上 角 开 始 ， 先 转换 左边 第 1 列 ， 接 着 转换 第 2 列 ， 等 等 。 例 如 ， 
对 应 于 未 移动 的 字母 T， 其 相应 的 向 量 为 : 
p= -1 -1 -1114111 -1 -1 -1 -1 -1 -1 -1)7 
对 6 个 字母 中 的 每 一 个 将 产生 这 样 的 一 个 输入 向 量 。 
将 使 用 的 ADALINE 网 络 如 图 10-24。 
输入 线性 神经 元 





a = purelin(Wp+b) 


图 10-24” 自 适应 模式 分 类 器 


(Widrow 和 Hof 构造 了 实现 这 个 ADALINE 的 机 器 。 据 他 们 所 述 ， 它 “ 像 一 个 午餐 桶 那 
AK) 

现在 将 6 个 输入 向 量 以 随机 的 顺序 输入 到 网 络 中 ， 在 每 一 次 输入 后 用 LMS 算法 调整 网 
络 的 权 值 ， 学 习 速 度 为 = 0.03。 调 整 权 值 后 ， 再 将 6 个 输入 向 量 到 输入 到 网 络 中 ， 并 产生 
它们 的 输出 结果 和 相应 的 误差 。 用 误差 的 平方 和 来 检测 网 络 的 质量 。 

图 10-25 说 明了 网 络 的 收敛 情况 。 总 共 输入 约 60 个 输入 向 量 ， 即 每 个 可 能 的 输入 向 量 


1038 大约 输 入 10 次 。 
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图 10-25 中 的 结果 与 Widrow 和 Hoff 在 35 年 前 得 到 的 和 发 表 的 结果 很 相似 。Widrow 和 
Hoff 做 了 很 好 的 科学 工作 ， 甚 至 几 十 所 后 他 们 的 工作 都 是 可 重复 的 (但 不 必要 有 一 个 午餐 桶 
T 
误差 收敛 











0 10 20 3» 40 50 60 70 w 90 100 


时 间 
图 10-25 学 习 速 度 为 0.03 时 的 误差 收敛 曲线 


试验 这 个 字母 识别 问题 可 以 使 用 Neural Network Design Demonstration Linear 
Pattern Classification(nnd101c)。 注 意 网 络 对 输入 模式 中 骂 声 的 钥 感 性 。 





10.5 ”结束语 


在 本 章 中 ,我们 介绍 了 ADALINE 神经 网 络 和 LMS 学 习 规 则 。ADALINE 网 络 与 第 4 
章 中 的 感知 器 网 络 很 相似 ， 两 者 具有 相同 的 基本 限制 : 它们 只 能 对 线性 可 分 的 模 或 进行 分 
类 。 尽 管 对 于 这 个 限制 ， 事实 上 LMS 算法 仍 比 感知 机 学 习 规 则 更 有 效 。 因 为 它 使 均 方 误差 
最 小 化 ， 所 以 算法 能 产生 比 感知 机 学 习 规 划 受 噪声 影响 小 的 判定 边界 。 

ADALINE 网 络 和 LMS 算法 在 实践 中 均 有 许多 应 用 。 尽 管 它们 是 在 20 世纪 50 FRA 
首次 被 提出 来 的 ， 它 们 仍 广 泛 地 用 于 自 适 应 滤波 的 应 用 中 。 当 前 ， 在 许多 长 途 电 活 线 上 安装 
的 回声 消除 系统 就 使 用 了 LMS 算法 。 

除了 作为 许多 自 适应 滤波 应 用 的 实际 解决 办 法 以 外 ，LMS 算法 也 因为 它 是 反 向 传播 
(BP) 算 法 的 前 驱 而 显得 很 重要 ，BP 算法 将 在 第 1 章 和 12 章 中 讨论 。 像 LMS 算法 一 样 ， 
反 向 传播 算法 也 是 使 均 方 误差 最 小 化 的 近似 的 最 速 下 降 算法 。 两 个 算法 惟一 的 区 别 在 于 导数 
的 计算 方式 。BP 算 法 是 LMS 算法 的 推广 ， 可 以 用 于 多 层 神 经 网 络 。 这 些 更 复杂 的 网 络 不 限 
于 解 线 性 可 分 问题 。 它 们 能 解决 任意 的 分 类 问题 。 
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这 篇 重要 文章 描述 一 个 自 适 应 的 类 感知 机 的 网 络 ， 它 能 快速 准确 地 学 习 。 作 者 假 
定 系统 有 输入 ， 每 个 输入 有 一 个 期 望 的 输出 类 别 ， 且 系统 能 计算 实际 输出 和 期 望 输出 
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这 篇 文章 特别 可 读 ， 它 总 结 了 自 适 应 多 层 神经 网 络 的 应 用 。 网 络 被 用 于 系统 建 


10-41] 模 、 统 计 预 测 、 回 声 消除 、 反 向 建 模 和 模式 识别 等 。 
习题 
E10.1 图 10-26 中 所 示 为 一 个 自 适应 滤波 器 ADALINE。 假 设 网 络 的 权 值 为 : 
wi = 1,W%12 =- 4,，2W13 =2 
滤波 器 的 输 人 为 
ty(k)} = f°,0,0,0,1,1,2,0,0,.…| 
求 滤波 器 的 响应 | a(%)|}。 
输入 ADALINE 
yk) 





alk) = purelin(Wp(k) + b) 


图 10-26 习题 E10.1 的 自 适应 滤波 器 ADALINE 


E10.2 图 10-27 中 给 出 了 两 类 模式 。 
(i) 用 LMS 算法 训练 一 个 ADALINE 网 络 ， 使 之 能 区 分 类 IMA PH 
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( 即 要 求 网 络 能 区 水 平 线 和 垂直 线 ) 。 
(ii) 你 能 解释 为 什么 ADALINE 可 能 难于 解决 此 问题 吗 ? 


"- Ed 


图 10-27 “习题 E10.2 的 模式 分 类 问题 10-42 
E10.3 假定 有 下 面 的 参 模式 和 它们 的 目标 输出 ; 


b] rd Ln 


在 例题 P10.3 中 假定 输入 到 ADALINE 的 这 些 向 量 以 等 概率 产生 。 现 在 假定 向 
E p 产生 的 概率 为 0.75， 向量 p, 产生 的 概率 0.25。 概 率 的 改变 是 否 会 改变 均 
方 误差 的 曲面 ? 若是 ， 现 在 曲面 的 形状 如 何 ? 最 大 稳 态 学 习 速 度 是 多 少 ? 

E10.4 本 习题 中 ,例题 P10.3 中 的 参考 模式 p, 被 修改 为 


Be 


(i) 假定 两 种 模式 以 等 概率 产生 。 求 均 方 误差 并 描绘 出 其 轮廓 线 图 。 

(ii) 求 最 大 稳 态 学 习 速 度 。 

(iii) 写 一 个 用 LMS 算法 求解 此 问题 的 MATLAB M-file。 对 一 个 稳 态 学 习 速 度 
让 算法 执行 40 步 。 用 零 向 量 作 为 初始 值 。 画 出 轮廓 线 图 上 的 变化 轨迹 。 

(iv) 在 将 两 个 参数 的 初始 值 均 设 为 1 后 ， 让 算法 执行 40 步 。 画 出 最 终 的 判定 边 
界 。 

Cv) 比较 (ii) 和 (iv) 的 最 终 参 数 。 解 释 比 较 的 结果 。 

E10.5 再 次 使 用 例题 P10.3 中 的 参考 模式 和 目标 输出 ， 假 定 模式 以 等 概率 产生 。 这 里 

我 们 要 训练 一 个 有 偏 置 值 ADALINE 网 络 。 求 三 个 参数 : was wM bo 

(i) 求 均 方 误差 和 最 大 稳 态 学 习 速 度 。 

(ii) S ^H LMS 算法 求解 此 问题 的 MATLAB M-file 文件 。 对 一 个 稳 态 学 习 
速度 让 算法 执行 40 步 。 用 零 向 量 作为 初始 值 。 画 出 最 终 的 判定 边界 。 

(iii) 将 所 有 参数 的 初始 值 均 设 为 1， 让 算法 执行 40 步 。 画 出 最 终 的 判定 边界 。 

(iv) 比较 (Gi) 和 (iv) 中 得 到 的 最 终 参数 值 和 判定 边界 。 解 释 比 较 的 结果 。 

E10.6 考虑 图 10-28 中 的 自 适应 预测 器 。 
假定 y() 是 一 个 稳 态 过 程 ， 其 自 相关 函数 为 ; 
C,(n) = ElyCK)CyCk + n))] 

(i) 写 出 包含 C,(n) 项 的 均 方 误差 的 表达 式 。 

(ii) 当 y( 有 = sin( 等 ) 时 ， 写 出 均 方 误 差 的 表达 式 。 

( 道 ) 求 均 方 误差 的 赫 森 矩阵 的 特征 值 和 特征 向 量 。 确 定 极 小 点 并 画 出 大 致 的 轮 
RAB 

(iv) R LMS 算 法 的 最 大 稳 态 学 习 速 度 。 
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alk) = w,, Wk -1) + w12y(k - 2) 


图 10-28 “习题 E10.6 的 自 适应 预测 器 

(v) 用 一 个 稳 学 习 速 度 ， 手 工 计算 LMS 算法 的 三 步 执行 结果 。 用 零 向 量 作 为 
初始 值 。 

(vi) 写 一 个 用 LMS 算法 求解 此 问题 的 MATLAB M-file 文件 。 对 一 个 稳 态 学 习 
速度 ， 让 算法 执行 40 步 。 画 出 轮 廊 线 图 上 权 值 的 轨迹 。 用 零 向 量 作为 初 
始 值 。 验 证 算法 收敛 于 最 优点 。 

(vii) 以 试验 方式 验证 当 学 习 速 度 大 于 (iv) 中 求 得 的 学 习 速 度 时 ， 算 法 不 稳定 。 

E10.7 再 次 解 例题 P10.9， 不 过 用 数字 1”,，“2” 和 “4” 代 替 字母 “T”,“G” 和 “F”。 对 每 个 参 . 
考 模式 和 噪声 模式 ， 测 试 经 过 训练 后 的 网 络 。 讨 论 网 络 的 敏感 性 。( 使 用 Neural 
|10-44 Network Design Demonstration Linear Pattem Classification (nnd101c) .) 


$5118 反 向 传播 


11.1 目的 


在 第 8 章 中 我 们 开始 性 能 学 习 的 讨论 ， 在 第 10 章 中 给 出 了 LMS 算法 ， 本 章 中 继续 对 性 
能 学 习 的 讨论 ， 并 给 出 一 个 更 一 般 的 LMS 算法 ， 称 为 反 向 传播 法 ， 它 可 用 来 训练 多 层 网 络 ， 
根据 LMS 学习 法 则 ， 反 向 传播 法 也 是 最 速 下 降 算 法 的 近似 ， 其 中 性 能 指数 是 均 方 误差 . 
LMS 算法 和 反 向 传播 法 的 区 别 在 于 它们 对 导数 的 计算 方式 上 。 对 单 层 的 线性 网 络 ， 误 差 是 
网 络 权 值 的 显 式 线性 函数 ， 其 相对 于 权 值 的 导数 较为 容易 求 得 。 在 具有 非 线性 传输 函数 的 多 
层 网 络 中 ， 网 络 权 值 和 误差 的 关系 更 为 复杂 。 为 了 计算 导数 ， 需 要 使 用 微 积 分 的 链 法 则 。 事 
实 上 ， 本 章 的 一 大 部 分 是 在 讲述 如 何 使 用 链 法 则 上 。 


11.2 理论 和 实例 


Frank Rosenblatt 的 感知 机 学 习 规则 和 Bernard Widrow 和 Marcian Hoff 的 LMS 算法 是 设 
计 用 来 训练 单 层 的 类 似 感知 器 的 网 络 的 。 如 前 面 几 章 所 述 ， 这 些 单 层 网 络 的 缺点 是 只 能 解 线 
性 可 分 的 分 类 问题 。Rosenblatt 和 Widrow 均 意 识 到 这 些 限制 并 且 都 提出 了 克服 此 类 问题 的 
TE: 多 层 网 络 。 但 他 们 未 将 这 类 算法 推广 到 用 来 训练 功能 更 强 的 网 络 。 

Paul Werboss 在 他 1974 年 的 论文 中 第 一 次 描述 了 训练 多 层 神 经 网 络 的 一 个 算法 
LWerbo74j， 论 文中 的 算法 是 在 一 般 网 络 的 情况 中 描述 的 ， 而 将 神经 网 络 作 为 一 个 特例 。 论 
文 没有 在 神经 网 络 研究 圈子 内 传播 。 直 到 20 世纪 80 年 代 中 期 ， 反 向 传播 算法 才 重 新 被 发 现 
并 广泛 地 宣扬 ， 它 是 被 David Rumelhart, Geoffrey Hinton 和 Ronald Williaras | RuHi86 |, 
David Parker, Park85], LAR Yann Le Cun[ LeCu85] 分 别 独立 地 重新 发 现 的 。 这 个 算法 因 被 
包括 在 《并 行 分 布 式 处 理 》( Parallel Distributed Processing) [RuMec86] 一 书 中 而 得 到 普及 。 这 
本 书 介绍 了 心理 学 家 David Rumelhart 和 James McClelland 领导 的 并 行 分 布 处 理 小 组 所 做 的 
研究 工作 。 这 本 书 的 出 版 引发 了 神经 网 络 的 研究 热潮 。 当 前 ， 用 反 向 传播 算法 训练 的 多 层 感 
知 机 是 应 用 最 广 的 神经 网 络 。 

本 章 中 ， 首 先 让 我 们 来 看 看 多 层 网 络 的 能 力 ， 然 后 叙述 反 向 传播 算法 。 


11.2.1 多 层 感知 机 


首先 我 们 介绍 第 2 章 中 所 用 的 多 层 网 络 的 符号 。 为 便于 参考 ,我们 在 图 11-1 中 重新 画 
出 一 个 三 层 感知 机 的 图 。 注 意 三 个 感知 机 网 络 只 是 简单 地 被 连接 在 一 起 。 第 一 个 网 络 的 输出 
是 第 二 个 网 络 的 输入 ， 第 二 个 网 络 的 输出 是 第 三 个 网 络 输入 。 每 一 层 可 以 有 不 同 数目 的 神经 
元 ， 甚 至 传输 函数 也 可 以 不 同 。 在 第 2 章 中 我 们 用 上 标 来 表示 层 号 。 因 而 ， 第 一 层 的 权 值 矩 
阵 写 作 W!, 55 —HEBIBUEXREES E W^, 

为 了 表示 多 层 网 络 的 结构 ， 有 时 我 们 使 用 下 面 的 速记 符号 ， 其 中 在 输入 的 数目 后 面 跟 着 
每 一 层 的 神经 元 数目 : 


(11.2; 
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R-S-sg.s (11.1) 
\ LLLA 
al =f'(W'p+b!) a? = f 2 (Wa! +b?) a? = f 3 (Wa2+ b) 
83 = f 3 (Wf 2(W2f | (Wp +b!) -b2) - b5) 
图 11-1 三 层 网 络 
现 来 看 这 些 多 层 感知 器 网 络 的 能 力 ， 首 先 看 多 层 网 络 在 模式 分 类 中 的 使 用 ， 然 后 讨论 在 
PR BGB Vr PRA Re 


1. 模式 分 类 
要 说 明 多 层 感知 机 用 于 模式 分 类 的 能 力 ， 考 虑 经 典 的 异 或 (XOR) 问 题 。 异 或 的 输入/ 有 目 


标 输出 对 为 


(pe = [el-e = ods = [Je = dn ob = He s alee) 


1969 年 Minsky 和 Papert 曾 用 此 问题 来 说 明 单 层 感 知 机 的 局 限 性 ， 
如 图 11-2 所 示 ， 因 为 两 个 类 别 不 是 线性 可 分 的 ， 所 以 一 个 单 层 的 感知 
机 不 能 完成 分 类 任务 。 

然而 一 个 两 层 的 网 络 能 解决 异 或 问题 。 事 实 上 ， 有 许多 种 多 层 网 络 
可 解决 此 问题 。 一 种 办 法 是 在 第 一 层 中 用 两 个 神经 元 来 产生 两 个 判定 边 
界 。 第 一 个 边界 将 p, 和 其 他 模式 分 开 ， 第 二 个 边界 则 将 p, 分 开 。 然 后 
第 二 层 网 络 用 一 个 AND 操作 将 两 个 边界 结合 在 一 起 。 对 第 一 层 的 每 个 图 11.2 
神经 元 ， 其 判定 边界 如 图 11-3 所 示 。 

结果 产生 的 两 层 2 -2 - 1 网 络 如 图 11-4。 这 个 网 络 整个 的 判定 边界 如 图 11-5， 阴 影 区 域 
表示 产生 网 络 输出 为 1 的 那些 输入 。 

多 层 网 络 在 模式 分 类 上 的 应 用 可 见 例题 Pl1.1 和 P11.2。 

2. 函数 逼近 , 

直到 现在 为 止 ， 在 本 书 中 看 到 的 神经 网 络 的 应 用 主要 是 在 模式 分 类 方面 。 神 经 网 络 在 本 
质 上 也 可 被 看 作 是 函数 逼近 器 。 例 如 ， 在 控制 系统 中 ， 目 标 是 要 找到 一 个 合适 的 反馈 函数 ， 
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wi 口 
iwi 


第 … 层 /神经 元 1 第 一 层 /神经 元 2 


图 11-3 异 或 (XOR) 网 络 的 判定 边界 


输入 单个 决策 AND 操作 





图 11-4 两 良民 或 (XOR) 网 络 


它 能 将 测量 到 的 输出 映射 为 控制 输入 。 在 自 适应 滤波 (第 10 章 ) 中 ， x 
目标 是 要 找到 一 个 函数 ， 使 得 延迟 的 输入 信号 值 被 映射 到 相应 的 输 n 
出 信号 上 。 下 面 的 例子 将 展示 多 层 感知 机 在 实现 函数 方面 的 灵活 性 。 

考虑 图 11-6 中 的 两 层 的 1 -2- 1 网络。 此 例 中 ， 第 一 层 的 传输 
函数 是 log sigmoid 函数 ， 第 二 层 的 是 线性 耻 数 。 换 句 话说 ， 就 是 AUPA 


fi(n) = l HE fF(n)-2n (11.2) 


1+e" 
假定 这 个 网 络 的 权 值 和 偏 置 值 为 : 
wi. = 10, wł; = 10,51 =- 10,b} = 10, wi1,1 = 1, wi. = 1,b? = 0 
网 络 在 这 些 参数 下 的 响应 如 图 11-7， 图 中 网 络 输出 a? 为 输入 p 的 函数 ， 且 p 的 取 值 范围 为 
[ -2， 2]. 
注意 网 络 的 响应 包括 两 步 ， 每 一 步 对 第 一 层 中 的 一 个 对 数 -5 形 神经 元 的 响应 。 通 过 调 
整 网 络 的 参数 ， 每 一 步 的 曲线 形状 和 位 置 都 可 以 发 生 改 变 ， 如 在 下 面 讨论 中 将 会 见 到 的 那 


样 
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图 11-5 


每 步 的 曲线 中 心 对 应 网 络 第 一 层 中 的 神经 元 的 净 输 入 为 0: 
bi | -10., (11.3) [15] 


nl = wip+bi=0 = p =- 1 z 10 
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1 1 1 b} 10 
n wiiptbó220 = Peo =-1=-1 (11.4) 
2,1 
输入 — Log-Sigmoid Æ 线性 层 
/~ 





a! = logsig(Wip+b!) à? = purelin(W'a! +b?) 


图 11-6 函数 逼近 网 络 的 例子 


I 3 [] 1 2 


P 
图 11-7 图 11-7 中 网 络 的 响应 


通过 调整 网 络 的 权 值 可 以 调整 每 一 步 曲线 的 陡 度 。 
图 11-7 说 明了 参数 改变 对 网 络 响应 的 影响 。 图 中 的 曲线 是 参数 未 作 调整 前 的 网 络 响应 。 
其 他 的 曲线 对 应 于 当 一 个 参数 的 取 值 在 下 面 的 范围 时 的 网 络 响应 : 


-lewi,)<1,-lewi,<1,0<))<20,-l<b<l (11.5) 


X 


图 11-6(a) 说 明 第 一 层 ( 隐 层 ) 的 网 络 偏 置 值 如 何 被 用 来 确定 每 一 步 曲线 的 位 置 。 图 11-8 
(b) 说 明 网 络 权 值 如 何 决 定 每 步 曲 线 的 坡度 。 第 二 层 ( 输 出 层 ) 的 网 络 偏 置 值 使 整个 网 络 的 响 
应 曲线 上 移 或 下 移 ， 如 图 11-8(d) 所 示 。 

从 这 个 例子 中 ， 可 以 看 到 多 层 网 络 的 灵活 性 。 看 起 来 ， 只 要 在 隐 层 中 有 足够 数量 的 神经 
元 ,我 们 可 以 用 这 样 的 网 络 来 逼近 几乎 任何 一 个 函数 。 事 实 上 ， 研 究 已 表明 ， 两 层 网 络 在 其 
隐 层 中 使 用 $ 形 传输 函数 ， 在 输出 层 中 使 用 线性 传输 函数 ， 就 几乎 可 以 以 任意 精度 逼近 任何 
感 兴 趣 的 函数 ， 只 要 隐 层 中 有 足够 的 单元 可 用 ( 见 [HoSt89])。 
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试验 这 个 两 层 网 络 的 响应 曲线 请 用 Neural Network Design Demonstration Net- 
work Function (nndlinf). 
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0 
(c) (d) 
图 11-8 ”参数 改变 对 网 络 响应 的 影响 
我 们 已 经 有 了 对 多 层 感 知 机 网 络 在 模式 识别 和 函数 逼近 中 的 能 力 一 些 概 念 ， 下 一 步 是 
要 设计 一 个 算法 来 训练 这 样 的 网 络 。 
11.2.2 反 向 传播 算法 


使 用 第 2 章 中 引入 的 多 层 网 络 的 缩写 符号 可 以 简化 对 反 向 传播 算法 (BP 算法 ) 的 讨论 。 
图 11-9 中 是 使 用 缩写 符号 标记 的 三 层 神 经 网 络 。 





a! =f!(W'p+b!) a? = f 2 (W2a! + b2) a = f 3 (W382 +b?) 
a? = f 3 (W3 £2 (Wf ! (W'p+b!)+b2) b?) 


图 11-9 使 用 缩写 符号 的 三 层 网 络 


如 前 所 述 ， 多 层 网 络 中 某 一 层 的 输出 成 为 下 一 层 的 输入 。 描 述 此 操作 的 等 式 为 : 
att! = fm+l(Wmt+lam + bnr+l),m = 0,1,°°,M -1 (11.6) 


这 里 ，M 是 网 络 的 层 数 。 第 一 层 的 神经 元 从 外 部 接收 输入 ; 
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a? =p (11.7) 
它 是 等 式 (11.6) 的 起 点 。 最 后 一 层 神 经 元 的 输出 是 网 络 的 输出 : 
a = a^ (11.8) 


1. 性 能 指数 
多 层 网 络 的 BP 算法 是 第 10 章 中 LMS 算法 的 推广 。 两 个 算法 均 使 用 相同 的 性 能 指数 ; 
均 方 误差 。 算 法 的 输入 是 一 个 网 络 正 确 行为 的 样本 集合 ; 
[potii pti, c. poto! (11.9) 
这 里 p, 是 网 络 的 输入 ，t, 是 对 应 的 目标 输出 。 每 输入 一 个 样本 , 便 将 网 络 输出 与 目标 输出 
相 比较 。 算 法 将 调整 网 络 参数 以 使 均 方 误 差 最 小 化 ， 
F(x) = E[e?] = E((t - aY] (11.10) 
RE, x 是 网 络 权 值 和 偏 置 值 的 向 量 ( 如 第 10 TR). SAMBA PH, MERKI 
A. 





F(x) = Elele = El(t-a)"(t-a)] (11.11) 
如 同 LMS 算 法， 我 们 用 外 (x) 来 近似 计算 均 方 误差 : 
F(x) = (t(k) - a(k))7(t(k) - a(k)) = e7(k)e( 4) (11.12) 
这 里 ， 均 方 误差 的 期 望 值 被 第 kb 次 迭代 时 的 均 方 误差 所 代替 。 
近似 均 方 误差 的 最 速 下 降 算 法 为 : 
wi +1) = wf) - as (11.13) 
BD (nO) -a 2E (11.14) 
这 里 a 是 学 习 速 度 。 
到 此 为 止 ， 整 个 过 程 与 LMS 算法 是 一 样 的 。 下 面 将 叙述 比较 难 的 部 分 一 一 偏 导数 的 计 
算 。 
2. 链 法 则 


对 单 层 线性 网 络 (ADALINE)， 这 些 偏 导数 可 以 用 式 (10.33) 和 式 (10.34) 方 便 地 求 得 。 
对 多 层 网 络 ， 误 差 不 是 隐 层 中 的 权 值 的 显 式 函数 ， 因 此 这 些 偏 导数 并 不 容易 求 得 。 

因为 误差 是 隐 层 中 的 权 值 的 隐 函 数 ， 所 以 下 面 将 用 微 积分 中 的 链 法 则 来 计算 偏 导数 。 假 
设 有 一 个 函数 f, CENERE n 的 显 式 函 数 。 现 在 求 f 关于 第 三 个 变量 v 的 导数 ， 链 法 则 
为 : 


A Cw) apn) , dnte) (11.15) 
w n w 
例如 ， 若 
f(n) = Hn = 2w PRU f(n(w)) = è” (11.16) 
则 
df(nCw)) . df(n) x dn(w) _ (e^)(2) (11.17) 





dw ^. dn dw 
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下 面 用 此 法 则 来 求 式 (11.13) 和 (11.,14) 中 的 偏 导 数 ; 
af - af Oni; 
ab aF Ən? 
abr ^ ant ” 3b” 

每 个 等 式 中 的 第 二 项 均 可 容易 地 算出 ， 因 为 m EAA BIBER PECES 
显 式 函 数 : 





(11.18) 





(11.19) 











ni = Y whar + br (11.20) 
因此 ， 
ant gi Ont 
2m ^ 5 RETE 21 (11.21) 
着 定义 
"2 
T= (11.22) 
CF Xf m 层 的 输入 的 第 ; 个 元 素 变化 的 敏感 性 )， 则 式 (11.18) 和 (11.19) 可 简化 为 
Pur = sat! (11.23) 
oF zT (11.24) 
现在 可 以 将 近似 最 速 下 降 法 表示 为 
wk +1) = wi Ck) - asfar! (11.25) 
b™(k +1) = br(k) - as? (11.26) 
用 和 矩阵 形式 表示 ， 则 为 
W"(k +1) = w"(k) -asm(am-1)7 (11.27) 
b" (k +1) = b"(&) - as” (11.28) 
这 里 
ar 
ant 
` oF 
s” = 2E = | ant (11.29) 
n : 
af 
Ini 


(注意 这 个 算法 与 式 (10.33) 和 (10.34) 的 LMS 算法 之 间 的 紧密 关系 。) 

3 敏感 性 的 反 向 传播 

现在 还 需要 计算 敏感 性 sm ， 这 要 求 再 次 使 用 链 法 则 。 正 是 这 个 过 程 给 出 了 反 向 传播 这 
个 词 ， 因 为 它 描述 了 第 m 层 的 敏感 性 通过 第 m + 1 层 的 敏感 性 来 计算 的 递 推 关系 。 

推出 敏感 性 的 递 推 关系 需要 使 用 下 面 的 雅 可 比 矩 阵 : 
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| ang*! ang*! 
an™t 
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| ant 
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下 面 求 这 个 矩阵 的 一 个 表达 式 
a 2) wha 














ante 
eee m 





m 
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了 元素: 


lim m+l 
+ b7 | 
= Wij 
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u 
& 
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FCn; 


这 里 


因而 雅 可 比 和 矩阵 可 写成 
on” 


这 里 
F^" (n?) 


2 ( 


S = an 
= F” (n”)(W™+!) gmt! 


现在 我 们 可 以 看 到 反 向 传播 算法 得 名 的 原因 了 。 敏 感性 从 最 后 
- 1 


到 第 一 层 





-—- 
— 

' 

to 





地 实现 链 法 则 。 
后 一 层 得 到 


M 
S$ = 
i an 


m 
an} 


ant 
i af" (nf) 


m | 


8f"(nf) 


m) - 
Inj 


0 





an” 


M-1_, 


完成 BP 算法 前 还 有 一 点 事情 要 做 。 我 们 需要 递 推 关系 式 (11.35) 的 起 始点 s. KER 
(11.37) 





wry p(n) 


现在 可 以 使 用 矩阵 形式 的 链 法 则 写 出 敏感 性 的 递 推 关系 式 : 
T ak F^(n^)(Wr*1)? 一 一 


ap"! - 


PE - aj) 
= -— 2(2t; - à) 


(11.30) 


(11.31) 


(11.32) 


(11.33) 


(11.34) 


fng) 


(11.35) 


on B. 


层 通 过 网 络 被 反 向 传播 
(11.36) 


atl 
^ s! — s 
这 里 值得 强调 的 是 ，BP 算法 使 用 的 是 在 LMS 算法 中 用 到 的 相同 的 近似 最 速 下 降 法 。 
一 复杂 的 是 ， 为 了 计算 梯度 ， 需 要 首先 反 向 传播 敏感 性 。 反 向 传播 的 优点 是 我 们 可 以 很 有 效 
` ` H ^N M i 


da; 
n? 





.9t-a(t-a). 


an 
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由 于 "S 
ES. - our - a = f (nit) (11.38) 
可 以 写 出 
sM 2-2 - af" (i) (11.39) 
这 可 以 用 矩阵 形式 表示 成 ， 
sM =- 2F”(n”)(t - a) (11.40) 
4. 小 结 
下 面 小 结 BP 算法 。 第 一 步 是 通过 网 络 将 输入 向 前 传播 : 
a =p (11.41) 
art! = f+! (wtlar + b™*!) mm = 0,1,°°,M —1 (11.42) 
a= a^ (11.43) 
下 一 步 是 通过 网 络 将 敏感 性 反 向 传播 : 
sM =- 2F!(n™)(t — a) (11.44) [41-13 
s" = F^(n")(W"*)7gn*t, m = M -1,75,2,1 (11.45) 
最 后 ， 使 用 近似 的 最 速 下 降 法 更 新 权 值 和 偏 置 值 : 
W"™(k+1) = W”(k) - as"(a"7)7 (11.46) 
b"(k +1) = b"(k) - as" (11.47) 
11.2.3 例子 


下 面 我 们 选择 一 个 网 络 并 将 BP 算法 用 在 其 上 来 解决 一 个 特定 问题 。 首 先 ， 采 用 本 章 开 
始 时 讨论 的 1-2-1 网 络 。 为 方便 起 见 ， 将 此 网 络 重 画 于 图 11-10 中 。 


输入 Log-Sigmoid £z 线性 层 





a! = logsig( W'p- b!) a? = purelin(W?al +b?) 


图 11-10 用 网 络 逼近 函数 的 例子 
下 一 步 定 义 此 网 络 要 解决 的 问题 。 假 定 我 们 用 此 网 络 来 逼近 函数 
g(p) = 1+ sin( 5), -2<p<2 


训练 集 可 以 通过 计算 函数 在 几 个 p 值 上 的 函数 值 来 得 到 。 
在 开始 BP 算法 前 ,需要 选择 网 络 权 值 和 偏 置 值 的 初始 值 。 通 常 选择 较 小 的 随机 值 。 下 


一 章 将 讨论 为 什么 要 这 样 做 。 现 在 ， 选 择 的 值 


(11.48) 
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W!(0) = | i Va bl(0) = |- 0. 0:48] ,W*(0) = [0.09 — 0.17],b?(0) = [0.48] 


网 络 对 这 些 初始 值 的 响应 如 图 11-11 Bras, APEAREN KE 2A PRAY R o 





图 11-11 ”网络 对 初始 值 的 响应 


现在 可 以 开始 执行 算法 了 。 对 初始 输入 ， 我 们 选择 p = 1: 
ao=p=1 


第 一 层 的 输出 为 


we telga | os)) 7 tel osi 


EDEN 
1 + e975 [0:32] 
~ 1 ~ 10.368 





1 + ee 
第 二 层 的 输出 为 
2 3 1 . 0.321 
a? = f?(Wal +b) = purelin| [0.09 — 0.17] 0.368] + 50.481) = [0.446] 
误差 将 为 


e=t-a= {1 + sin( 5) }- a? = {1 + sin( 1) }- 0.446 - 1.261 
算法 的 下 一 阶段 是 反 向 传播 敏感 性 值 。 在 开始 反 向 传播 前 ， 需 要 先 求 传输 函数 的 导数 


ffi Cn). HRE: 











Pw = alo) = (1- i J T=) = 0-20 


对 第 二 层 ; 


PO) = Bn) =1 


下 面 可 以 执行 反 向 传播 了 。 起 始点 在 第 二 层 。 由 式 (11.44): 
s = — 2F(m)(t- a) = -2Lf?(n2)](1.261) = - 2[1](1.261) = - 2.522 


第 一 层 的 敏感 性 由 计算 第 二 层 的 敏感 性 反 向 传播 得 到 ， 由 (11.45) 式 : 
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(1 ~ al)(al) 0 0.09 
"eese [des 
i mon 0 (1— al)(al) JL - 0.17 [ - 2.522] 
_ [G - 0.321) (0.321) 0 I| 0.09 | 
| 0 (1 ~ 0.368)(0.368) JL - 0.17 [- 2.522] 


[o2 0 |[ 027] [70:5] 
ZI o 023311 0.429 | ~ | 0.0997 
算法 的 最 后 阶段 是 更 新 权 值 。 为 简单 起 匈 ， 学 习 速 度 设 为 «= 0.1。( 学 习 速 度 的 选择 将 
在 第 12 章 中 作 更 详细 的 讨论 。) 由 式 (11,46) 和 (11.47): 
W?(1)2 W(0) - as:(al)7 = [0.09 -0.17] -0.1[- 2.522][0.321 0.368] 
= [0.171 -0.0772] 
b?(1) = b?(0) - og = [0.48] - 0.1[- 2.522] = [0.732] 


Wi(1) = W'(0) - as (a)? = [^7] i [70:08 | _ [265 | 


_0.41 0.0997 - 0.420 

— 0.48 ~ 0.0495 - 0.475 
soroa [ES] oo] tt 
(1) = b(0) -as =| v 0.0997 - 0.140 


这 就 完成 了 BP 算法 的 第 一 次 迭代 。 下 一 步 可 以 选择 另 一 个 输入 p ， 执 行 算 法 的 第 二 次 
选 代 过 程 。 选 代 过 程 一 直 进 行 下 去 ， 直 到 网 络 响应 和 有 目标 函数 之 差 达 到 某 -- 可 接受 的 水 平 。 
在 第 12 章 中 将 对 收敛 准则 作 更 详细 的 讨论 。 
试验 在 此 两 层 网 络 上 使 用 BP 算法 请 用 Neural Network Design Demonstration 
Backpropagation Calculation (nndllbc)。 





11.2.4 反 向 传播 


本 节 中 将 叙述 与 反 向 传播 法 的 实际 实现 相关 的 一 些 问题 ， 包 括 网 络 结核 的 选择 、 网 络 收 
但 性 和 一 般 化 的 问题 。( 第 12 章 中 将 再 次 讨论 实现 问题 ， 讨 论 改 进 算法 的 过 程 。) 

1. 网 络 结构 的 选择 

如 本 章 前 面 所 述 ， 多 层 网 络 可 用 来 逼近 几乎 任 一 个 函数 ， 只 要 在 隐 层 中 有 足够 的 神经 
元 。 然 而 ， 通 常 并 不 能 说 ， 多 少 层 或 多 少 神经 元 就 足以 得 到 足够 的 性 能 。 本 节 中 我 们 通过 一 
些 例 子 来 考察 这 个 问题 。 

第 一 个 例子 : 假定 要 逼近 如 下 的 函数 

g(p) = 1+sin( 55), -2& p <2 (11.49) 


其 中 i 取 值 1，2，4 和 8。 随 i 的 增加 ， 函 数 变 得 更 为 复杂 ， 在 -2< p<2 的 区 间 内 将 有 更 
多 的 正弦 波 周 期 。 当 i 增加 时 ， 很 难 用 隐 层 中 神经 元 数目 固定 的 神经 网 络 来 逼近 g(p)。 

对 这 个 例子 ， 我 们 使 用 一 个 1 - 3 - 1 网 络 ， 第 一 层 的 传输 函数 为 对 数 -5 形 ， 第 二 层 的 
传输 函数 是 线性 函数 。 根 据 11.2.1 节 中 函数 逼近 的 例子 ， 这 种 两 层 网 络 的 响应 是 三 个 对 数 
-S 形 函数 之 和 (或 多 个 对 数 - $ 形 函 数 之 和 ， 只 要 隐 层 中 有 同样 多 的 神经 元 )。 显 然 ， 对 这 
个 网 络 能 实现 的 函数 有 多 么 复杂 有 一 个 限制 。 图 11-12 是 网 络 经 训练 来 通 近 g(p)( 对 i=1， 
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2，4，8) 后 的 响应 曲线 。 最 终 的 网 络 响应 曲线 用 图 中 画 出 的 曲线 来 表示 。 

可 以 看 到 ， 对 =4， 这 个 1 - 3 - 1 网 络 达 到 了 它 的 最 大 能 力 。 当 i > 4 时， 网 络 不 能 产 
^E g(p) 精 确 的 逼近 曲线 。 从 图 11-12 右 下 方 的 图 中 可 以 看 到 1 - 3 -1 网 络 试图 逼近 ; = 8 时 
的 函数 g(p)。 网 络 的 响应 和 g(p ) 之 间 的 均 方 误差 达到 了 最 小 化 ， 但 网 络 响 应 曲线 只 能 与 
函数 的 一 小 部 分 相 匹配 。 








图 11-12 fH1-3- 1 MAE RRR 
下 一 个 例子 中 将 从 一 个 稍 有 些 不 同 的 角度 来 解决 此 问题 。 这 次 我 们 选择 函数 elp), SA 
后 使 用 越 来 越 大 的 网 络 直到 能 精确 地 通 近 函数 为 止 。g(p ) 采 用 
g(p) =1+sin(@p),-2<p<2 (11.50) 
11-18) 我 们 用 两 层 网 络 来 逼近 此 函数 ， 第 一 层 的 传输 函数 是 对 数 - S 形 函 数 ， 第 二 层 的 是 线性 
函数 (1- S! -1 网络)。 如 本 章 前 面 所 述 ， 网 络 的 响应 是 S'S 形 函 数 的 迭 加 。 
图 11-13 为 第 一 层 ( 隐 层 ) 的 神经 元 数目 增加 时 的 网 络 响应 曲线 。 除 非 网 络 隐 层 中 至 少 有 
5 个 神经 元 ， 否 则 网 络 不 能 精确 地 表示 pp). 


LAA A 
JV V 








EC -1 0 1 2 


图 11-13 ”增加 隐 层 中 的 神经 元 数目 的 影响 
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总 结 起 来 说 ，1 - S!- 1 网 络 在 隐 层 中 为 $ 形 神经 元 而 在 输出 屋 中 为 线性 神经 元 时 ， 可 
以 产生 S'S 形 函 数 相 全 加 的 网 络 响应 曲线 。 若 要 逼近 有 大 量 拐 点 的 函数 ， 隐 层 中 就 要 有 大 
量 的 神经 元 。 
使 用 Neural Network Design Demonstration Function Approximation (nndllfa) 可 
以 达到 对 两 层 网 络 能 力 更 深 的 认识 。 





2. KEE 

在 前 一 节 给 出 的 一 些 例子 中 ， 尽 管 BP 算法 可 以 获得 使 均 方 误差 最 小 化 的 网 络 参 数 ， 网 
络 的 响应 却 不 能 精确 地 逼近 所 期 望 的 函数 。 这 是 由 于 网 络 的 能 力 受 隐 层 中 章 经 元 数目 的 限 
制 。 本 节 将 给 出 一 个 例子 ， 其 中 网 络 能 逼近 函数 ， 但 学 习 算 法 不 能 产生 精确 逼近 解 的 网 络 参 
数 。 下 一 章 将 更 详细 地 讨论 这 个 问题 ， 并 解释 为 什么 会 这 样 。 现 在 先 来 叙述 这 个 问题 。 

网 络 要 通 近 的 函数 为 

g(p = 1+sin(rp), -2<ps2 (11.51) 

我 们 用 一 个 1 - 3 -1 网 络 来 允 近 此 浮 数 ， 其 中 第 一 层 的 传输 函数 是 对 数 -5 BOR, Bo 
的 是 线性 函数 。 

图 11-14 说 明 学 习 算 法 收敛 到 使 均 方 误差 最 小 的 一 个 解 的 情况 。 细 线 表示 中 间 迭 代 结 
果 ， 粗 线 表示 最 终 解 ， 此 时 算法 收敛 。( 每 条 曲线 旁边 的 数字 表示 迭代 的 顺序 ，0 表示 初始 
条 件 ，5 表示 最 终 解 。 这 些 曲 线 没 有 列 出 对 应 的 迭代 次 数 ， 数 字 仅 表示 一 个 顺序 。) 





图 11-14 URES RMA 


图 11-15 说 明 学 习 算 法 收敛 到 一 个 解 但 均 方 误差 并 没有 被 最 小 化 的 一 和 情况 。 粗 线 ( 标 
记 为 5) 代表 最 终 的 迭代 中 的 网 络 响应 。 在 最 终 的 迭代 计算 中 ， 均 方 误差 的 梯度 为 0， 因而 得 
到 一 个 局 部 极 小 值 ， 但 正如 图 11-14 中 表示 的 ， 存 在 一 个 更 好 的 解 。 图 11-15 中 的 结果 与 图 
11-14 中 的 结果 之 间 的 差别 仅仅 是 初始 条 件 。 从 一 个 初始 条 件 开 始 ， 算 法 收敛 到 全 局 极 小 值 
点 ， 而 从 另 一 个 初始 条 件 开 始 ， 算 法 收敛 到 一 个 局 部 极 小 值 点 。 

注意 LMS 算法 不 会 产生 这 样 的 结果 。ADALINE 网 络 中 均 方 误差 性 能 指标 是 只 有 一 个 
极 小 值 点 的 二 次 函数 (在 大 多 数 条 件 下 )。 因 而 只 要 学 习 速 率 足 够 小 ，LMS 算法 保证 收敛 到 
全 局 极 小 值 。 通 常 ， 多 层 网 络 的 均 方 误差 非常 复杂 且 有 许多 局 部 极 小 值 (在 下 一 章 中 将 看 到 


11-19} 
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图 11-15 ”收敛 到 局 部 极 小 值 


这 一 点 )。 当 BP 算法 收敛 时 ， 我 们 并 不 能 确定 是 否 求 到 了 最 优 解 。 最 好 的 办 法 是 多 试 几 个 
不 同 的 初始 条 件 以 保证 得 到 最 优 的 解 。 
3. 推广 
在 大 多 数 情 况 下 ， 用 有 限 多 个 正确 网 络 行 为 的 例子 来 训练 多 层 网 络 . 
fp til fp tolo d pos to! (11.52) 
这 个 训练 集 常常 代表 一 类 大 得 多 的 可 能 的 输入 /输出 对 。 因 而 网 络 将 它 学 习 到 的 例子 成 功 地 
推广 到 总 体 这 一 点 是 重要 的 。 
例如 ， 假 定 训练 集 是 通过 采样 下 面 的 函数 得 到 的 ， 
g(p)=1+ sin( = p) (11.53) 
采样 点 为 p = -2，-1.6，-1.2，…，1.6，2( 总 共有 11 个 输入 /输出 对 )。 在 图 11-16 中 ， 
ual 可 以 看 到 经 这 些 数据 训练 后 的 1-2- 1 网 络 的 响应 。 细 线 代 表 g(p )， 粗 线 代表 网 络 的 响 
应 ， 符 号 “ + "表示 训练 集 。 





ty 4 0 1 ? 


图 11-16 FR 1-2-1 网络 通 近 消 数 g(p) 
可 以 看 到 ， 网 络 响应 曲线 可 以 很 精确 地 表示 g( p )。 若 要 求 网 络 在 p 点 的 响应 值 ， 而 p 点 不 
包含 在 训练 集中 (如 p = - 0.2)， 网 络 仍 将 产生 接近 于 g(p ) 的 输出 。 网 络 的 推广 结果 很 好 。 





再 看 图 11-17， 它 表示 使 用 同样 的 数据 集训 " 
练 一 个 1 - 9 - 1 网 络 后 得 到 的 网 络 响应 结果 。 
注意 在 所 有 训练 点 上 ， 网 络 的 响应 很 精确 地 到 A 
E g(p)。 然 而 ， 若 我 们 计算 不 包含 在 训练 集中 
的 点 p( 如 p = -0.2) 对 应 的 网 络 响应 ， 网 络 所 ' 
产生 的 结果 可 能 与 g(p ) 的 结果 差 得 很 远 。 因 而 
这 个 网 络 没有 被 很 好 地 推广 。 

对 此 问题 ，1 -9- 1 网 络 又 过 于 灵活 了 ; E 
总 共有 28 个 可 调节 的 参数 (18 个 权 值 和 10 个 偏 4 , ; : 1 
置 值 ) ， 然 而 在 训练 集中 只 有 11 个 数据 点 。1 - 
2-1 网 络 只 有 7 个 参数 ， 因 而 它 能 实现 的 函数 图 11-17 AA 1-9-1 POS g(p) 
类 型 非常 受 限 。 

一 个 网 络 要 能 被 推广 ， 它 应 当 具 有 比 训练 集中 的 数据 点 少 的 参数 。 在 神经 网 络 中 ， 正 
如 在 所 有 建 模 问题 中 ， 要 用 足以 表示 训练 集 的 最 简单 的 网 络 。 只 要 有 一 个 更 小 的 网 络 能 工 
作 ， 就 不 要 使 用 更 大 的 网 络 ( 常 被 称 作 Ockham 的 “剃刀 ”)。 

若 不 使 用 最 简单 的 网 络 ， 那 么 另 一 种 办 法 是 在 网 络 得 到 恰当 调整 后 停止 训练 。 这 个 过 程 
的 介绍 以 及 其 他 提高 网 络 推广 性 能 的 技术 可 参见 第 19 章 。 
试验 神经 网 络 的 推广 请 用 Neural Network Design Demonstration Generalization 
(nnd11gn) 。 





11.3 小 结 





a! zf'(Wiprb?) a? = f 2 (W2a! +b?) a = f 3 (W3a2+ b) 
a? = f 3 (NP E: OC (W'p+b'!) +b?) +b?) 


反 向 传播 算法 


性 能 指标 
F(x) = Ele7e] = El(t-a)"(t-a)] 


逼近 性 能 指标 
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F(x) = e (k)e(k) = (tk) - a(k))*(t(k) - a(&)) 





敏感 性 
ak 
an? 
; ok 
a ak 
n7 
前 向 传播 
al =p 
a"*! 一 f^*!(Wn*lgr +b"*!),m = 0O,1,°°,M -1 
a= a^ 
反 向 传播 
s! = — 2F" (nV)(t - a) 
s” = F™(n”)(W™+!) Tgrt, m 2M-1,-:,2,1 
这 里 
f^ (nt) 0 Ut 0 
PG") _ 0 f") eee ° 
0 0 f^G) 
Pap) = ED T 
权 值 更 新 (近似 最 速 下 降 法 ) 
W"(k +1) = W"(k) — as" (a^71)7 
11-25: b"(k +1) = b"(k) - as” 
11.4 例题 


P11.1 考虑 图 11-18 中 的 两 类 模式 ， 类 工 表示 垂直 线 ， 类 开 表 示 水 平 线 。 


I3) >*: 
m" nn } 3$ II 


图 11-18 例题 P11.1 的 模式 类 别 
(i) 这 些 类 别 是 否 是 线性 可 分 的 ? 
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(ii) 设计 一 个 多 层 网 络 来 区 分 这 些 类 别 。 
解 
(i) 首先 通过 依次 扫描 模式 中 的 各 列 将 模式 表示 成 向 量 。 每 个 白 的 方块 用 ” - RM, 
黑 的 方块 用 "1 表示。 垂直 线 ( 类 工 的 模式 ) 则 表示 为 
1 -1 


1 -1 
P, = -1 和 P = 1 


水 平 线 (类 开 的 模式 ) 表 示 为 


P; 1 和 p, = -] 
-1 1 
为 了 使 这 些 类 别 线 性 可 分 ， 必 须 能 在 这 两 个 类 别 之 间 放 置 一 个 超 平面 。 即 是 ， 必 须 有 一 
个 权 值 矩阵 W 和 偏 置 值 5 满足 
Wp, + b > 0, Wp, + b > 0, Wp, + b «0, Wp +b «0 


这 些 条 件 可 转化 为 
[wia Wiz Wig Vial -1/7 [wi + Wi2- 13 Wia] > O 
-1 
Wi — Wit Wi3- 201 4] < 0 


[- wi + Wiz- W3 + wal < 0 


前 两 个 条 件 可 化 简 为 

Wi, Wi, > Wgt Wis 和 wis + Wi» Wi + Vis 
这 是 矛盾 的 。 后 两 个 条 件 可 化 简 为 

Wii + M143 > Vot wia 7H wy. + wig > Wit wa 
这 也 是 矛盾 的 。 因 此 ， 没 有 超 平 面 可 以 将 这 两 个 类 别 分 开 。 

(得 》 有 许多 多 层 网 络 可 解决 此 问题 。 设 计 网 络 时 首先 注意 到 ， 对 类 工 的 向 量 ， 或 者 是 
前 面 两 个 元 素 ， 或 者 是 后 面 两 个 元 素 为 “1"。 类 工 的 向 量具 有 “1” 和 "”- 1” 交替 出 现 的 模式 。 
因而 所 设计 的 网 络 如 图 11-19, 

第 一 层 中 的 第 一 个 神经 元 测试 输入 向 量 的 前 两 个 元 素 。 若 它们 均 为 “1”， 则 输出 “1”， 
否则 输出 “ - 1”。 第 一 层 中 的 第 二 个 神经 元 测试 输入 向 量 的 后 两 个 元 素 。 第 一 层 中 的 神经 元 
均 执行 AND 操作 。 第 二 层 网 络 测试 第 一 层 的 输出 是 否 为 “1”。 它 执行 OR 操作 。 这 样 ， 当 输 
人 向 量 前 两 个 元 素 或 后 两 个 元 素 都 为 “1 "时 ， 网 络 将 输出 “1”。 

P11.2 图 11-20 中 为 一 个 分 类 问题 ， 类 工 向 量 代表 空心 圆 ， 类 开 向 量 代表 实心 圆 。 这 些 
类 别 不 是 线性 可 分 的 。 设 计 一 个 能 将 它们 正确 分 类 的 多 层 网 络 。 

我 们 将 用 一 个 能 用 于 任意 分 类 问题 的 过 程 来 解决 这 个 问题 。 它 需要 一 个 三 层 网 络 ， 每 一 
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输入 AND 运算 OR 运算 


/NAN Cw 





图 11-19 区 分 水 平 线 和 垂直 线 的 网 络 


层 的 神经 元 数目 是 固定 的 (hard-limiting)。 第 一 层 产 生 将 类 工 向 量 和 类 下 向 量 分 开 的 线性 判 
定 边界 集合 。 这 个 问题 中 要 用 11 个 这 样 的 边界 ， 如 图 11-21 所 示 。 





图 11-20 分 类 问题 图 11-21 第 一 层 判定 边界 


第 一 层 权 值 矩 阵 中 的 每 一 行 对 应 于 一 个 判定 边界 。 第 一 层 的 权 值 矩阵 和 偏 置 值 为 
wra]? ll 1 -1 1 -1 -111 
1 -1 -1 1 -1 1 -1 1 -1 1 1 
(b')? = [-2 3 0.5 0.5 -1.75 2.25 - 3.25 3.75 6.25 - 8.75 - 4.75] 
(回想 第 3，4 章 和 第 10 章 中 对 一 个 给 定 判定 边界 计算 合适 的 权 值 矩阵 和 偏 置 值 的 过 程 。) 下 
面 可 以 用 第 二 层 的 AND 神经 元 将 第 一 层 11 个 神经 元 的 输出 划分 为 组 。AND 神经 元 跟 我 们 
在 例题 P11.1 中 第 一 层 网 络 所 使 用 的 一 样 。 第 二 层 的 权 值 矩阵 和 偏 置 值 为 


11110000000 -3 
00001 100101 r -3 
0000100 L1 1 9 -3 
00000011 10 1 -3 


第 二 层 的 四 个 判定 边界 如 图 11-22 所 示 。 例 如 ， 神 经 元 2 的 判定 边界 由 第 一 层 的 边界 5， 
6, 9 和 11 组 合 而 成 。 这 可 以 在 Wi 的 第 2 行 中 看 到 。 
第 三 层 中 ， 我 们 将 第 二 层 的 四 个 判定 区 域 通过 OR 操作 结合 成 一 个 判定 区 域 。 如 例题 


KI X dg 215 


O O 
020 9 «X 
' o o O 
OO 
o O5 o A 
图 11-22 ”第 二 层 判 定 区 域 


P11.1 中 最 后 一 层 网 络 那样 。 第 三 层 的 权 值 矩阵 和 偏 置 值 为 
Wi z[1 1 1 1,5» = [3] 







整个 网 络 如 图 11-23. 
只 要 在 隐 层 中 有 足够 的 神经 元 ， 设 计 上 面 网 络 的 过 程 可 用 来 解决 具有 任意 的 判定 边界 分 


类 问题 。 办 法 是 用 第 一 层 网 络 产生 一 定数 量 的 线性 边界 ， 然 后 在 第 二 层 用 AND 神经 元 ， 第 
三 层 中 用 OR 神经 元 ， 将 它们 结合 起 来 。 第 二 层 的 决策 区 域 是 凸 的 ， 但 第 三 层 产 生 的 最 终 的 
判定 边界 可 以 是 任意 形状 的 。 

输入 初始 判定 AND 运算 OR 运 算 





| 
a’ = hardlims(W'p+b!) a? = hardlims(W2a! +b?) a? = hardlims(W5g? - b») 


图 11-23 ”例题 P11.2 的 网 络 


网 络 的 最 终 判 定 区 域 由 图 11-24 给 出 。 在 阴影 区 域 的 任 向 向 量 将 产生 网 络 输出 1， 它 对 
应 于 类 卫 。 任 何其 他 向 量 产生 网 络 输出 - 1， 它 对 应 于 类 了 。 


oo 
oao € 
Geo ofo 
oo, %P 


图 11-24 最 终 的 判定 边界 


P11.3 说 明 具 的 线性 传输 函数 的 多 层 网 络 等 价 于 单 层 线 性 网 络 。 


解 
对 多 层 线性 网 络 ， 前 向 传播 等 式 为 
al - W!p 4 b! 


O 
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a = Wa +b? = WW'p+ [Wb +b] 
a = Wa +b = WWW'p + [WWDbh! + Wd? +b] 
继续 下 去 可 以 看 到 ， 对 M 层 的 线性 网 络 ， 等 价 的 单 层 线性 网 络 将 具有 如 下 的 权 值 矩 阵 
和 偏 置 值 向 量 : 
W = W/W WW 
b = [WW Wb + (WW) W° Jb? + + b” 
P11.4 此 问题 的 目的 是 说 明 链 法 则 的 使 用 。 考 虑 如 下 的 动态 系统 ; 
y(k +1) = fly(k)) 
要 求 选 择 初始 条 件 y(0), ， 使 得 在 某 一 终止 时 刻 A= K， 系 统 的 输出 y( KEAT REM 
近 某 一 目标 输出 :。 我 们 将 用 最 速 下 降 法 使 性 能 指标 最 小 化 。 性 能 指标 为 
F(y(0)) = (t - y(K))? 


为 此 需求 得 梯度 
FPO) 

寻求 一 个 用 链 法 则 计算 它 的 过 程 。 

s 

梯度 为 

9 a(t- K 2 2 
Dro) = UO = ate = ya [- zr] 

关键 项 为 


9 
rouse) 
而 它 不 能 被 直接 求 得 ， 因 为 y( 天 ) 并 不 是 y(0) 的 显 式 函数 。 先 定义 一 个 中 间 项 
9 
r(k) = 8,00)? 
这 样 就 可 以 使 用 链 法 则 : 
E) . dy(k +1) 9y(k) E dy(k +1) 
rhe D = Zork a "a, ^ 2,0) 


从 系统 的 动态 方程 可 知 


x r(k) 








dy(k +1) 7 af (y(k)) 


= = f(4k 
dy(k) dy(k) fau) 





因此 ， 计 算 (8) 的 递归 等 式 为 
r(k +1) = f(y(k)) r(k) 
TE k 2 0 的 初始 值 为 
ay(0) 
r(0) = 2,0) - 
于 是 ， 计 算 梯度 的 整个 过 程 为 
r(0)= 1 


r(k +1) = f(y(k))r(k), k=0,1,.%, K-1 
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2 
35 (0) ^ (0) = 2(t - y(K))[- rCK)] 
P11.5 考虑 图 11-25 中 的 两 层 网 络 ， 初 始 的 权 值 和 偏 置 值 设 为 


w! = 1,5! = 1, w? 2-2, zl 
一 个 输入 /目标 对 为 
(Cp =1),(= 1) 
(i) 求 均 方 误差 (e 关 ， 它 为 所 有 权 值 和 偏 置 值 的 显 式 函数 。 
Cii) 用 (i) 题 的 结果 来 求 初始 权 值 和 偏 置 值 下 的 9(e)*/9w'。 
(六 用 反 向 传播 算法 重复 (i) 题 ， 并 比较 结果 。 


输入 Log-Sigmoid Æ 线性 层 
é 7 N 
w! n! a! w2 ni a? 
人 zi 
b: b? 
1 1 
a! = logsig(w'p+b') a? = purelin(w2a!+b2) 


图 11-25 例题 P11.5 的 两 层 网 络 





解 
(i) 均 方 误差 为 
1 2 
e» «Gi + exp(-(w'p + 0) + s) 
Cii) 导数 为 
a 2 9 1 y 
EM = 2e 55 = 2e{ w? (i+ expl-(w'p + Bh) 2exPs - (wip + 6'))(- »)| 


为 了 计算 在 初始 权 值 和 偏 置 值 下 的 这 个 导数 值 ， 求 


1 1 1 og 
a! = om (wip + b0) © (+ expl- (10) + D) 7 00808 
a? = w?a! + b? = (- 2)0.8808 + 1 = - 0.7616 
e = (t- a’) = (1- (- 0.7616)) = 1.7616 


( )? 
ai = 2e{ w? C lg c) C (wip + b))(- »)| 


= 20.7616) | - 2) zep (1(1) + DC 0] 


1 
(1 + exp( - (1(1) + 1)) 


d 1- 
= 3.5232( 0.2707 qas) - 0.7398 


(iii) 使 用 式 (11.44) 和 (11.45) 进 行 敏 感性 反 向 传播 算法 : 
s --2E(m)(t-a) =-2(1)(1-(-0.7616)) = - 3.5232 
s! = F'an)(W2)7g = [al(1- 4)](- 28 
= [0.8808(1 - 0.8808) ](- 2)(- 3.5232) = 0.7398 
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Hy eh ( 11.23) HT RES (90278 w! 
2 
Hey - slo0 = sip = (0.7398)(1) = 0.7398 


Owl 
[133]. 这 与 我 们 在 (ii) 题 中 得 到 的 结果 一 致 。 
P11.6 在 本 章 前 面 我 们 已 经 表明 ， 若 神经 元 传输 函数 为 对 数 -5 ERR 
1 
a= fo) = ite 





n 


则 通过 下 式 可 方便 地 求 得 导数 
f(n) = a(1- a) 

寻找 一 种 方便 的 办 法 求 双 曲 正切 $ 形 函数 的 导数 ， 
d-e” 








Q = f(n) = tansig( n) = exe 
解 
直接 计算 导数 得 
. d d{e-e" ee")? , -n e + 
in) = H dure) Im) (e ce Ag eT 


P11.7 对 图 11-26 中 的 网 络 ， 初 始 权 值 和 偏 置 值 为 
wl(0) 2-1, 6'(0) = 1, w?(0) 2-2, (0) = 1 


一 个 输入 /目标 对 是 
(Cp =-1),(¢ = 1)) 
设 a= 1， 执 行 一 次 反 向 传播 算法 选 代 。 
双 曲 正切 -S 形 层 双 曲 正切 -S 形 层 


111-34 
输入 
w! n! a! wi n? a? 
? COXPE t An XE 
bi 2 
1 1 
/~ J/ VLLL 
a! = tansig(w'p+b!) a? = tansig(w2a b?) 


图 11-26 ”两 层 双 曲 正切 -$ 形 网 络 


解 
第 一 步 是 通过 网 络 传播 输入 。 
n? = w'p+b!=(-1)(-1)+1 =2 
"nm tansig( n!) _ exp( n!) ~ exp( - nl) - exp(2) - exp( — 2) - 0.964 
exp(n!)  exp( - n!) exp(2) + exp(- 2) 

n? = w?a! + b? = (- 2)(0.964) + 1 =- 0.928 

exp( n?) — exp( - n?) E exp( - 0.928) — exp(0.928) _ 0.7297 

exp( - 0.928) + exp(0.928) 








2 + 2 
a? = tansig(n*) = 
d exp( n?) 十 exp( - n?) 
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e = (t - a?) = (1- (-0.7297)) = 1.7297 
现在 用 式 (11.44) 和 (11.45) 反 传 敏感 性 : 
S=- 2F(n?)(t-a) = - 2[1 - (a?) ] (e) =- 2[1 - (- 0.7297)? ]1.7297 
=~ 1.6175 
s! = F'(n')(W?)’e2 = [1 - (a')*] ws? = [1 - (0.964)7](- 2)(- 1.6175) 
= 0.2285 
最 后 ， 用 式 (11.46) 和 (11.47) 更 新 权 值 和 偏 置 值 : 
w^(1) = w?(0) - as2(al)7 = (- 2) -1(- 1.6175) (0.964) = - 0.4407 
wl(1) = wl!(0) — asl(a9)7 = (- 1) - 1(0.2285)(- 1) = - 0.7715 


b^(1) = (0) - as? = 1 - 1(— 1.6175) = 2.6175 
b'(1) = 8!(0) — as! = 1 — 1(0.2285) = 0.7715 
P11.8 图 11-27 是 将 标准 两 层 前 向 传播 网 络 稍 作 修改 得 到 的 网 络 。 从 输入 有 一 条 到 第 二 
层 的 直接 连接 。 推 导 此 网 络 的 反 向 传播 算法 。 
输入 


第 1 层 





图 11-27 具有 旁 路 连接 的 网 络 
解 
首先 ， 前 向 方程 为 


n! = Wip + b! 
al - f (n) - f! (Wip + b) 
m= Wa + W'p+b 
a = É(m) = (Wa! + W'lp + b?) 


与 标准 两 层 网 络 相 比 ， 敏 感性 的 反 向 传播 方程 不 会 改变 。 敏 感性 是 均 方 误 差 对 网 络 输 人 
的 导数 ;由 于 我 们 仅仅 在 网 络 输入 中 增加 了 一 项 ， 这 些 导数 不 会 改变 。 


下 一 步 需要 求 权 值 更 新 方程 的 梯度 元 素 。 对 标准 的 权 值 和 偏 置 值 有 


11-36 
ak _ ək In _ mm- 
Iw, On? awh, C 


Ait, W, b, WAP 的 更 新 方程 不 变 。 需 要 的 是 一 个 额外 的 W… 的 方程 : 
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ak ab ant ,; an? 
= 7 35 XxX = 
Iwi? In? aw? ! 


为 求 等 式 右 边 的 导数 ， 注 意 


1 
S R 
2 2 1 2,1 2 
ni = > wi jaj + 2 Wi,p, + bi 
了 = 1 jel 





因此 

an? af 

aw?! = P; 且 awh} = sip, 
因而 更 新 方程 可 以 写成 矩阵 形式 ; 


W^(k 41) = W"(k) -asn(an-1)7，m = 1,2 
b”(k +1) = b™(k) - as", m = 1,2 
Wk +1) = Wolk) - as?(a2)? = We! (k) ~ as? (p)? 
此 问题 的 要 点 是 ， 反 传 的 概念 可 被 用 于 比 标准 的 多 层 前 馈 网 络 更 一 般 的 网 络 。 
P11.9 基于 反 向 传播 的 概念 ， 求 一 个 能 更 新 图 11-28 中 所 示 的 递归 网 络 的 权 值 ww 和 
w, 的 算法 。 


输入 线性 递归 层 





a(k4 1) = purelin(w, p(k)+w,a(k)) 


图 11-28 线性 递归 网 络 


解 
第 一 步 是 定义 性 能 指数 。 如 同 多 层 网 络 ， 我 们 使 用 均 方 误差 
F(x) = GO) - alk)? = (e(k))? 
使 用 最 速 下 降 法 进行 权 值 更 新 ， 


Aw, 


(agi F(x) 
这 些 导数 可 计算 如 下 : 
j, A0 = PAGI - a(k))? = 2(t(k) - a(k)){ - Ed 
因此 ， 和 需要 计算 的 关键 项 是 
Jakk) 


Iw; 


要 计算 这 些 项 ， 首 先 需 要 写 出 网 络 方程 
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alk +1) = purelin( w,p(k) + w;a(k)) = wjpCk) + walk) 


两 边 对 网 络 权 值 求 导 数 得 ， 
a 1) - p(k) + wa oat " 


Falk +1 9 
Et = a(k) + wa 2208) 
2 wa 


(注意 我 们 必须 考虑 到 a ( bk ABE w | 和 w, RARR K, Rae T A PS BRR NE 
这 两 个 递归 方程 来 计算 导数 。 方 程 用 

9a(0) _ 0 aa(0) -0 

Ow, ”9 | 


初始 化 ， 这 是 由 于 初始 条 件 不 是 权 值 的 函数 。 
要 说 明 此 过 程 ， 先 假定 a(0) = 0。 第 一 次 网 络 更 新 为 
a(1) = w,p(0) + w5a(0) = w,p(0) 


第 一 个 导数 为 ; 

Ja à ü 

AD = p) + 4203 = plo), D = ol0) ew, Hil) = 0 
第 一 次 权 值 的 更 新 为 


Aw, =- az Pa) =~ of 200) - a) [- 24] 
Aw, =- 2a(£(1) ~ a(1)) | - p(0)! 
Aw, = -2«(£(1) - a(1)10] = 0 
这 个 算法 属于 动态 反 向 传播 类 型 ， 其 中 梯度 是 用 不 同 的 方程 计算 的 。 
P11.10 对 单 层 线性 网 络 (ADALINE) ， 说 明 反 向 传播 算法 退化 为 LMS 算法 。 
解 
对 单 层 线性 网 络 ， 敏 感性 的 计算 为 ， 
s! --2F(n)(t- a) --2l(t- a) = - 2e 
权 值 的 更 新 ( 式 (11.46) 和 (11.47) ) 为 
W'(k +1) = W(k) -osl(a0)7 = W!(k) 2 al- 2e)p? = W(&) +2oaep7 
bl(k +1) = bl(k) ~ as = bi(k) ~ a(- 2e) = b'(k) + 2ae 
这 与 第 10 章 中 的 LMS 算法 相同 。 11-39 


11.5 ”结束语 


本 章 中 讲述 了 多 层 感知 器 网 络 和 反 向 传播 学 习 规则 。 多 层 网 络 扩展 了 单 层 感知 器 网 络 ， 
功能 更 强大 。 单 层 网 络 只 能 区 分 线性 可 分 的 模式 ， 但 多 层 网 络 能 用 于 任意 的 分 类 问题 。 此 
外 ， 多 层 网 络 可 用 作 通 用 的 函数 逼近 器 。 研 究 表明 ， 一 个 两 层 网 络 只 要 在 其 陷 层 中 有 是 够 的 
神经 元 ， 且 隐 层 神经 元 的 传输 函数 是 S 形 类 型 的 ， 便 可 以 坎 近 任何 实际 的 函数 。 

BP 算法 是 LMS 算法 的 扩展 ， 可 用 来 训练 多 层 网 络 。LMS 算法 和 BP 算法 都 是 使 均 方 误 
差 最 小 化 的 最 速 下 降 法 。 它 们 的 惟一 区 别 在 于 梯度 的 计算 方法 。 为 了 计算 均 方 误差 对 于 隐 层 
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中 的 权 值 和 偏 置 值 的 导数 ，BP 算法 使 用 了 链 法 则 。 导 数 首 先 在 网 络 的 最 后 一 层 被 计算 ， 然 
后 反 向 传播 通过 网 络 ， 并 用 链 法 则 计算 隐 层 中 的 导数 ， 算 法 也 因此 而 被 称 为 反 向 传播 法 。 

反 向 传播 的 一 个 主要 问题 是 它 需要 较 长 的 训练 时 间 。 使 用 基本 反 疝 传播 算法 求解 实际 
问题 是 不 可 行 的 ， 因 为 它 需要 用 几 周 的 时 间 来 训练 网 络 ， 甚 至 要 用 大 型 筷 。 由 于 反 向 传播 算 
法 首先 得 以 流行 ， 已 经 有 了 许多 研究 加 速算 法 收敛 的 工作 。 在 第 12 章 中 ,我们 将 讨论 反 向 
传播 算法 收敛 慢 的 原因 ， 并 将 给 出 提高 算法 性 能 的 几 种 技术 。 
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这 篇 博士 论文 看 起 来 是 第 一 个 对 BP 算法 进行 描述 的 文章 (尽管 没有 使 用 反 向 传播 
的 名 字 )。 这 里 ， 算 法 是 在 一 般 网 络 的 上 下 文中 描述 的 ， 而 将 神经 网 络 作为 一 个 特例 。 
直到 20 世纪 80 年 代 中 期 Rumelhart, Hinton 和 Williams[ RuHi86], David Parker 
[Park85] 和 Yann Le Cun [LeCu85] 重 新 发 现 了 BP 算法 ， 此 算法 才 广 为 人 知 。 


习题 
E11.1 设计 一 个 能 完成 图 11-29 中 的 分 类 问题 的 多 层 网 络 。 只 要 输入 向 量 在 阴影 区 域 
(或 边界 上 ) ， 网 络 应 输出 l, 否则 输出 一 lo 


+ 
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图 11-29 模式 分 类 区 域 
E11.2 求 一 个 与 图 11-30 中 的 网 络 有 相同 输入 /输出 特性 的 单 层 网 络 。 








图 11-30 ”两 层 线 性 网 络 


E11.3 选择 图 11-4 中 的 1 -2 -1 网 络 的 权 值 和 偏 置 人 入， 使 得 网 络 响 应 曲线 通过 图 11-31 
中 圆圈 所 指示 的 点 。 





2 A $ 1 a 
图 11-31. PRM 


使 用 Neural Network Design Demonstration Two-layer Network Function (nndllnf) 来 检查 
你 的 结果 。 





E11.4 用 链 法 则 来 求 下 面 函数 的 导数 9 /9w: 
(i) f(n)=sin(n), n(w)= w? 
(ii) f(n)=tanh(n), n(w)z5w 
(iii) f(n) sexp(n), n(w)=cos(w) 
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(iv) f(n) =logsig(n), n(w) =exp(w) 
E11.5 使 用 下 面 描述 的 “ 反 向 ”法 重新 计算 例题 P11.4。 在 例题 P11.4 中 ,动态 系统 为 
yCk +1) = f(y(k)) 
我 们 需要 选择 初始 条 件 y(0)， 使 得 在 某 一 终止 时 刻 k=K, RAMH y CK REUS 
可 能 地 接近 目标 输出 :。 我 们 用 最 速 下 降 法 使 性 能 指标 
F(y(0)) =(t- yCK)»? = e*(K) 
最 小 化 ， 因 而 需求 梯度 





a 
ay (0) (0) 
在 用 链 法 则 计算 这 个 梯度 的 过 程 中 ， 涉 及 到 下 面 项 的 递归 方程 : 
| BEEN 
1144 r(k) = 3,0070? 


它 随 时 间 前 进而 展开 。 梯 度 也 可 以 以 时 间 的 反 向 顺序 展开 下 面 项 来 得 到 : 
a 
a(k) = zae K) 


E11.6 再 次 考虑 11.2.3 节 的 反 向 传播 例子 。 
Ci) 求 均 方 误 差 (e)*， 它 是 所 有 权 值 和 偏 置 值 的 显 式 函数 。 
(ii) 用 (i) 题 的 结果 计算 在 初始 权 值 和 偏 置 值 下 的 9(e)?/3 wi,1。 
(iii) 比较 (让) 题 中 的 结果 和 文中 由 反 传 算法 得 到 的 结果 。 
E11.7 对 图 11-32 中 的 网 络 ， 初 始 权 值 和 偏 置 值 设 为 
wl(0) = 1,50!(0) = -2,w?(0) = 1,07(0) := 1 


网 络 传输 函数 为 | 
fa) = (n)?, P(n) = " 
一 个 输 TOU 
个 输入 /目标 对 为 (p = 1),(e = 0) 
对 a= 1 的 反 传 算法 ， 执 行 一 次 选 代 。 
输入 第 一 层 第 二 层 





al= f(wi!p*b!) a? 2f?(w?a V b?) 


111-45 图 11-32 习题 E11.7 的 两 层 网 络 
E11.8 对 图 11-33 中 的 网 络 ， 神 经 元 传输 函数 为 
f'n) = (n)? 
一 个 输入 /输出 对 为 
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Xf a= 1 的 反 向 传播 法 ， 执 行 一 次 迭代 。 





图 11-33 ”习题 E11.8 的 单 层 网 络 


E11.9 图 11-34 中 的 网 络 没 有 使 用 我 们 所 用 的 标准 神经 元 格式 。 网 络 输出 是 网 络 输入 的 
乘积 ， 


a = Wip, + Vj, pi pa + Wop, + b 
用 近似 最 速 下 降 法 , R w w w A b BUS BP 算法 中 所 用 的 那样 的 学 习 规则 。 L146 


输入 X Cross-Product 神经 元 
CON 


2 
_/\ 
a= Wii * Wi 2D1D2* wap2+b 
图 11-34 3E XLI ( Cross-Product) FR] £& 


E11.10 El 11-35 中 为 一 个 两 层 网 络 ， 它 有 一 个 从 输入 端 直接 到 第 二 层 的 附加 连接 。 推 
导 此 网 络 的 反 向 传播 算法 。 





a! =f'(w'p+b') a? zf?(w21al4-w" p+b?) 


图 11-35. ”有 旁 路 (bypass) 连 接 的 两 层 网 络 
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E11.11 对 图 11-6 中 的 1-2- 1 网络 ， 写 一 个 实现 BP 算法 的 MATLAB 程序 。 初 始 权 
值 和 偏 置 值 设 为 均匀 分 布 于 -~- 0.5 和 0.5 之 间 的 随机 数 ( 使 用 MATLAB 函数 
rand), ， 并 训练 网 络 使 之 逼近 函数 
g(p)- 1+ sin( p); -2<p<2 
1147; 使 用 几 个 不 同 的 初始 条 件 ， 试 验 几 个 不 同 的 学 习 速 率 a。 讨 论 算法 的 收敛 性 。 


第 12 章 反 向 传播 算法 的 变形 


12.1 目的 


第 11 章 中 介绍 的 反 向 传播 算法 是 神经 网 络 研究 中 的 重大 进展 。 然 而 ， 基 本 的 算法 对 大 
多 实际 应 用 来 说 都 太 慢 了 。 本 章 将 介绍 一 些 反 向 传播 算法 的 变形 ， 能 显著 提高 速度 并 使 算法 
实用 化 。 

本 章 将 用 一 个 函数 近似 的 例子 来 集中 地 说 明 为 什么 反 向 传播 算法 很 慢 ， 污 着 提供 一 些 算 
法 的 改进 。 这 里 需要 注意 反 向 传播 算法 是 一 个 近似 最 速 下 降 的 算法 。 第 9 章 中 ， 我 们 看 到 最 
速 下 降 是 一 个 最 简单 但 通常 是 最 慢 的 最 小 化 方法 。 共 瑟 梯度 算法 和 和 牛顿 法 一 般 有 更 快 的 收敛 
速度 。 本 章 中 ， 将 解释 如 何 用 这 些 快 速 的 方法 去 加 速 反 向 传播 的 收敛 速度 。 


12.2 ”理论 和 实例 


当 基 本 的 反 向 传播 算法 应 用 于 实际 问题 时 ， 训 练 将 花 去 数 天 甚至 数 星期 的 机 时 。 这 引起 
了 对 提高 算法 收敛 速度 研究 的 极 大 热情 。 

快速 算法 的 研究 粗略 地 分 成 两 类 。 第 一 类 包括 那些 使 用 启发 式 信息 的 技术 ,这 源 于 对 标 
准 反 向 传播 算法 特定 性 能 的 研究 。 这 些 启发 式 技术 包括 可 变 的 学 习 速 度 ， 使 用 动量 和 改变 比 
例 变量 (例如 [VoMa88],'Jacob88], [Tol90] 和 [RiIr90])。 本 章 将 讨论 动量 的 使 用 和 可 变 的 
学 习 速 度 。 

另 一 类 研究 集中 在 标准 数值 优化 技术 (例如 [Shan90],[Barn92], [ Batt92] 和 [ Char92j)。 正 如 
第 10 和 11 章 讨论 的 那样 ， 训 练 前 向 神经 网 络 减 小 均 方 误差 只 是 一 个 数值 优化 的 问题 。 由 于 数 
值 优化 做 为 一 个 重要 的 研究 课题 已 经 有 三 四 十 年 了 (参见 第 9 章 )， 因 而 从 大 量 已 有 的 数值 优化 
技术 中 选择 快速 训练 算法 是 比较 合理 的 。 除 非 绝对 需要 ， 否 则 没有 必要 再 发 明 新 的 训练 算法 。 
本 章 将 介绍 两 个 成 功 的 应 用 于 多 层 感 知 机 训练 的 算法 ， 共 罗 梯 度 算法 和 Levenberg-Marquardt 算 
法 (牛顿 法 的 变形 )。 

SDBP ”要 强调 的 是 本 章 中 描述 的 所 有 算法 都 使 用 了 反 向 传播 过 程 ， 所 有 的 导数 都 是 从 
网 络 的 最 后 一 层 处 理 到 网 络 的 第 一 层 。 因 此 ， 它 们 都 可 以 被 称 为 “ 反 向 传播 "算法 。 算 法 的 区 
别 在 于 用 结果 导数 来 修改 权 值 。 在 某 些 情况 下 ， 可 叹 的 是 我 们 平常 所 说 的 反 向 传播 算法 实际 
上 是 最 速 下 降 算法 。 为 了 明确 我 们 的 讨论 ， 在 本 章 的 其 余部 分 ， 称 基本 的 反 向 传播 算法 为 最 
速 下 降 反 传 算法 (Steepest Descent Backpropagation, SDBP). 

下 一 节 将 用 一 个 简单 的 例子 来 说 明 SDBP 在 收敛 方面 的 问题 。 接 着 在 随后 几 节 中 ， 将 提 


供 不 同 的 过 程 去 提高 算法 的 收敛 性 。 
12.2.1 BP 算法 的 缺点 


回忆 第 10 章 中 LMS 算 法 在 学 习 速 度 不 大 时 能 保证 收敛 到 具有 最 小 均 方 误差 的 解 。 这 是 
由 于 对 单 层 线性 网 络 来 说 均 方 误差 是 一 个 二 次 函数 。 二 次 函数 只 有 一 个 驻 点 。 男 外 ， 二 次 沙 
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SDBP 是 LMS 算法 的 推广 。 与 LMS 类 似 ， 它 也 是 最 小 均 方 误差 的 近似 最 快 下 降 算 法 。 
实际 上 ， 在 使 用 单 层 线性 网 络 时 ，SDBP 等 价 于 LMS 算法 (请 见 例题 P11.10)。 但 在 应 用 于 
多 层 网 络 时 ，SDBP 的 特性 完全 不 同 。 这 是 由 于 单 层 线性 网 络 和 多 层 非 线性 网 络 在 均 方 误差 
性 能 曲面 上 的 不 同 。 单 层 线 性 网 络 的 均 方 误差 只 有 一 个 极 小 点 ， 并 具有 常数 曲率 。 但 是 多 层 
网 络 的 性 能 曲面 可 能 有 多 个 局 部 极 小 点 而 且 在 参数 空间 的 不 同 区 域 曲率 也 是 变化 的 。 这 在 下 
面 的 例子 中 将 可 从 清楚 地 看 到 。 

1. 性 能 曲面 的 例子 

可 以 用 一 个 简单 的 函数 通 进 的 例子 来 说 明 多 层 网 络 的 均 方 误差 性 能 曲面 。 这 里 使 用 图 
12-1 中 所 示 的 1-2-1 网 络 ， 其 中 每 层 都 用 对 数 -S JE 16 PRI 


输入 对 数 SEA 对 数 -S 形 层 





ai=logsig(Wip+b'!) a? = logsig (Wial+b2) 


图 12-1 1-2-1 函数 逼近 网 络 
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1-2-1 网 络 的 响应 ， 具 有 如 下 权 值 和 偏 置 值 ; 
wlis10, wliz10, bjs-5, be5 (12.1) 
wii = 1， wi. 21, b =-1 (12.2) 
网 络 对 这 些 参数 的 响应 如 图 12-2 所 示 ， 它 表示 当 输入 p 在 [ - 2，2] 区 间 变 化 时 ， 输 出 
a? 的 图 形 。 





We 
o 
» 


图 12-2 ”指定 函数 
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我 们 想 训练 图 12-1 所 示 的 网 络 以 逼近 图 12-2 中 所 示 的 函数 。 当 网 络 参 数 被 设置 为 
(12.1) 和 (12.2) 式 中 的 值 时 ， 通 近 是 精确 的 。 自 然 这 是 一 个 非常 不 自然 的 问题 ,但 它 很 简单 
并 能 说 明 一 些 重 要 的 概念 。 

现在 来 考虑 问题 的 性 能 指数 。 假 设 函 数 在 下 述 值 被 采样 : 

p =-2, -1.9, - 1.8,77,1.9,2 (12.3) 

并 且 每 一 个 都 以 相同 的 概率 发 生 。 人 性 能 指数 是 这 41 个 点 的 平方 误差 之 和 。( 不 必 担 心 求 均 方 
误差 ， 它 可 以 通过 除 以 41 得 到 。) 

为 了 作出 性 能 指数 图 ， 每 次 只 变化 两 个 参数 。 图 12-3 显示 仅 当 改变 wi LR wi Bf T 
其 他 参数 都 设置 成 式 (12.1) 和 (12.2) 中 给 出 的 优化 值 时 的 平方 误差 。 注 意 最 小 的 误差 是 0， 
它 发 生 在 w1 = 10 wi; = 1 时 ， 如 图 中 小 圆圈 所 示 。 124 
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图 12-3 wi, w?,1 的 平方 误差 曲面 


注意 该 误差 曲面 中 的 若干 特征 。 首 先 ， 它 明显 不 是 一 个 二 次 函数 ， 曲 率 在 参数 空间 中 
的 变化 很 大 。 因 此 ， 难 以 为 最 速 下 降 算法 选择 一 个 合适 的 学 习 速 度 。 在 一 些 区 域 曲面 非常 平 
坦 ， 这 和 需要 一 个 大 的 学 习 速 度 ， 同 时 在 其 他 区 域 曲率 很 高 ， 这 和 需要 一 个 小 的 学 习 速 度 。( 参 
考 第 9 章 和 第 10 章 关 于 最 速 下 降 算 法 的 学 习 速度 选 择 的 讨论 。) 

需要 注意 的 是 ， 在 给 定 了 网 络 的 S 形 传输 函数 时 ， 平 坦 的 性 能 曲面 区 域 并 不 是 意料 之 外 
的 ，S 形 函数 对 大 的 输入 是 非常 平坦 的 。 

该 误差 曲面 图 的 另 一 个 特征 是 存在 多 个 局 部 极 小 点 。 滑 着 平行 于 wi HAA, dx 
wi) = 10 和 wii =1 有 全 局 极 小 。 然 而 在 沿 着 平行 于 w? 轴 的 谷 也 有 一 个 局 部 极 小 点 (该 局 
部 极 小 点 的 位 置 是 wj 20.88 102, =38.6)。 下 一 节 中 将 研究 该 曲面 上 反 向 传播 算法 的 性 
能 。 

12-4 指出 了 当 其 他 参数 设置 为 优化 值 时 ，w1,! 和 bi 变化 时 的 平方 误差 。 注 意 ; 最 小 
误差 是 0， 出 现在 w1,1= 10 和 4 = -5 时 ， 由 图 中 小 圆圈 表示 。 

可 以 发 现 曲 面具 有 非常 扭曲 的 形状 : 在 一 些 区 域 很 变 ， 在 另 一 些 区 域 很 平坦 。 用 标准 
的 最 速 下 降 算法 处 理 这 个 曲面 时 必定 会 碰 到 困难 。 例 如 ， 如 果 以 wi 20, biz - 10 作为 初 [ 12-5 
始 值 ， 梯 度 接近 于 0， 即 使 是 没有 靠近 局 部 极 小 点 ， 最 速 下 降 算法 此 时 也 将 停滞 。 

图 12-5 指出 了 当 其 他 参数 设置 到 它们 的 优化 值 而 bl M bi 变化 时 的 平方 误差 。 在 81 = 
-5, bb =5 时 达到 最 小 误差 (如 图 中 小 圆圈 所 示 )。 
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图 12-5 o] Tn bj PEAR 


该 曲面 显示 了 多 层 网 络 的 一 个 重要 特性 : 它们 具有 对 称 性 。 这 里 我 们 看 到 有 两 个 局 部 
极 小 点 ， 它 们 都 有 相同 的 平方 误差 值 。 第 二 个 解 对 应 于 相同 网 络 的 上 下 翻转 (即将 第 一 层 神 
经 元 顶层 的 神经 元 与 底层 的 神经 元 对 换 )。 这 是 由 于 没有 把 初始 权 值 和 偏 置 值 设 成 0 的 神经 
网 络 特征 。 对 称 性 使 0 成 为 了 性 能 曲面 的 一 个 鞍点 。 

对 多 层 网 络 性 能 曲面 的 简单 研究 给 出 了 一 些 如 何 设置 SDBP 算法 初始 参数 的 暗示 。 首 
Z., 不 能 把 初始 参数 设置 为 0。 这 是 由 于 对 性 能 曲面 来 说 ， 参 数 空间 的 原点 趋向 鞍点 。 其 
次 ， 不 能 把 初始 参数 设置 过 大 。 这 是 由 于 在 远离 优化 点 的 位 置 ， 性 能 曲面 将 变 得 十 分 平坦 。 

典型 情况 下 ， 可 以 选择 一 些小 的 随机 值 作为 初始 权 值 和 偏 置 值 。 这 样 我 们 可 以 在 不 离开 
性 能 曲面 平坦 区 域 的 同时 避 开 可 能 的 鞍点 。( 另 外 一 种 选择 初始 值 的 方式 在 [ NgeWi90] 中 描 

(12-6) 述 .) 正 如 下 节 将 看 到 的 ， 可 以 选择 多 个 不 同 的 初始 值 以 确保 算法 收敛 到 全 局 极 小 点 。 

2. 收 化 性 举例 

批 处 理 ” 前面 已 经 研究 过 性 能 曲面 ， 现 在 来 看 SDBP 算法 的 性 能 。 本 节 将 使 用 一 个 称 为 
批 处 理 的 标准 算法 的 变种 。 在 此 方法 中 ， 当 整个 训练 集 都 出 现 后 网 络 参 数 才 会 更 新 。 每 个 训 
练 例子 的 梯度 被 平均 在 一 起 ， 以 获得 更 精确 的 梯度 估计 。( 如 果 训 练 集 是 完备 的 ， 即 包括 了 
所 有 可 能 的 输入 /输出 对 ， 则 梯度 的 估计 是 精确 的 。) 
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图 12-6 中 ， 我们 可 以 看 到 SDBP( 批 处 理 模 式 ) 算 法 在 仅 调整 参数 vi 和 wi,1 时 的 两 条 
轨迹 。 其 中 初始 条 件 被 标记 为 “a” 的 轨迹 中 ， 算 法 最 终 收敛 到 优化 的 解 ， 但 收敛 的 速度 很 慢 。 
原因 是 曲面 在 轨迹 路 径 上 存在 曲率 变化 。 在 经 过 初始 化 时 的 中 等 斜率 后 ， 轨 迹 通 过 一 个 非常 
平坦 的 曲面 区 域 ， 直 到 它 落 人 一 个 斜 度 很 平缓 的 谷中 。 如 果 提 高 学 习 速 度 ， 算 法 将 通过 初始 
的 平坦 曲面 而 快速 收敛 。 但 正如 稍 后 所 见 的 ， 它 在 落 人 谷 后 将 变 得 不 稳定 。 

轨迹 “b” 显 示 了 算法 如 何 收 敛 到 局 部 极 小 点 。 轨 迹 陷入 一 个 谷中 并 且 偏 离 了 优化 解 。 如 
果 允 许 继续 的 话 ， 轨 迹 将 收敛 到 w! =0.88，w?.1 = 38.6。 多 个 局 部 极 小 点 的 存在 是 多 层 
网 络 性 能 曲面 的 典型 特征 。 因 此 ， 最 好 是 选择 多 个 初始 点 ， 以 保证 得 到 全 局 极 小 点 。( 如 图 
12-5 所 示 ， 一 些 局 部 极 小 点 有 相同 的 均 方 误差 。 所 以 ， 不 能 期 望 对 每 组 初始 值 都 能 收敛 到 
相同 的 参数 值 ， 只 能 期 待 获得 同样 的 最 小 误差 )。 


12-7 











1 
Wai 


图 12-6 两 个 SDBP 算法 ( 批 处 理 方式 ) 的 轨迹 
算法 的 进展 过 程 如 图 12-7 所 示 。 图 中 表示 了 和 迭代 次 及 和 均 方 误差 的 关系 。 左 边 的 曲线 
对 应 于 轨迹 “a" 右 边 的 曲线 对 应 于 轨迹 “b”。 这 些 曲线 是 典型 的 SDBP， 具 有 长 时 间 的 慢 进展 
和 短 时 间 的 快 进展 。 
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图 12-7 ” 均 方 误差 收敛 模式 


可 以 看 出 图 12-7 中 的 平坦 区 域 对 应 于 算法 通过 图 12-6 中 性 能 曲面 平坦 区 域 的 次 数 。 在 
这 些 区 域 中 应 该 增加 学 习 速 度 从 提高 收 全 速度 。 然 而 ， 如 果 在 算法 达到 性 能 曲面 中 较 陡 出 的 
部 分 中 时 增加 算法 的 学 习 速 度 将 使 它 变 得 不 稳定 。 

学 习 速度 的 影响 在 图 12-8 中 表示 。 该 轨迹 对 应 于 图 12-6 中 的 轨迹 “a”， 只 是 学 习 速 度 较 
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高 。 算 法 一 开始 收敛 得 很 快 ， 但 是 当 轨 迹 到 达 包 含 极 小 点 的 罕 谷 时 ， 算 法 开始 发 散 。 这 意味 


12-8) 着 改变 学 习 速 度 是 非常 有 效 的 。 我 们 可 以 在 平坦 曲面 时 增加 学 习 速度 ， 在 斜率 增加 时 减少 学 


习 速 度 。 问 题 是 :“ 算 法 怎么 知道 何 时 在 平坦 的 曲面 上 呢 ? ”我们 将 在 稍 后 讨论 这 个 问题 。 
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图 12-8 ”学习 速 度 过 大 时 的 轨迹 
提高 收敛 性 的 另 一 种 方法 是 平滑 轨迹 。 注 意 在 图 12-8 中 ， 当 算法 开始 发 散 时 ， 它 在 罕 
谷 来 回 振荡 。 如 果 我 们 用 平均 改变 参数 的 方法 过 滤 轨 迹 ， 这 样 可 以 平滑 掉 振荡 并 产生 一 个 稳 
定 的 轨迹 。 将 在 下 节 中 讨论 该 过 程 。 
试验 这 个 反 向 传播 的 例子 请 用 Neural Network Design Demonstration Steepest 
Descent Backpropagation (nnd12sd) 。 





12.2.2 BP 算法 的 启发 式 改进 


现在 我 们 已 经 考察 了 反 向 传播 (最 速 下 降 算法 ) 的 一 些 缺 点 ， 让 我 们 考虑 一 些 改进 算法 的 
方法 。 本 节 中 ， 将 讨论 两 种 启发 式 方法 。 下 节 将 提供 两 种 基于 标准 数值 优化 算法 的 方法 。 

1. 动量 方法 

第 一 种 方法 是 使 用 动量 。 这 种 改进 是 基于 在 上 节 中 的 观察 : 如 果 能 平滑 轨迹 中 的 振荡 将 
能 提高 收敛 性 能 。 可 以 用 一 个 低 通 滤器 来 实现 它 。 

在 将 动量 应 用 于 神经 网 络 应 用 之 前 ， 首 先 考虑 一 个 平滑 效果 的 简单 例子 。 下 面 是 一 阶 滤 
波 器 : 


y(k) = Yy(k - DD + (0 - D w(E) (12.4) 
其 中 (81) 是 滤波 器 输入 ，y(8) 是 滤波 器 输出 ，Y 是 动量 系数 ， 满 足 
0<7y<1l (12.5) 
滤波 履 的 效果 如 图 12-9 所 示 。 对 这 个 例子 滤波 器 输入 取 成 正弦 波 ， 
w(k) = 1 + sin( ZZE) (12.6) 


左 图 中 动量 系数 REA 0.9 而 右 图 中 y 被 设 为 0.98。 这 里 可 以 看 到 滤波 器 输出 的 振荡 低 
于 滤波 器 输入 的 振 菏 (正如 我 们 对 低 通 滤波 器 的 希望 )。 另 外 ， 当 ?7 增加 时 ， 滤 波 器 输出 的 振 
功 减 少 。 也 要 注意 平均 滤波 器 输出 与 平均 滤波 器 输入 相同 ， 虽 然 当 7 增加 的 时 候 ， 滤 波 器 输 
出 的 反应 变 慢 。 
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图 12-9 动量 的 平滑 效应 
总 之 ， 滤 波 器 有 助 于 减少 振荡 的 数目 ， 同 时 仍然 保持 平均 值 。 现 在 ， 来 看 怎样 把 这 种 
方法 用 于 神经 网 络 。 首 先 ， 回 忆 SDBP( 式 (11.46) 和 (11.47) ) 的 参数 更 新 为 
AW?" (k) = — asm(am-1)7 (12.7) 
Ab"(k) =-asr — (12.8) 
动量 MOBP 当 动 量 滤 波 器 加 到 参数 的 改变 后 ， 得 到 了 下 述 反 向 传播 的 动量 改进 
(MOBP) 公 式 ; 
AW” (k) = YAW"(k — 1) - (1- yos" (a^-1)7 (12.9) 
Ab^(k) = YAb"(k - 1) - (1- y)as” (12.10) 
如 果 将 这 些 改进 后 的 公式 用 于 上 节 的 例子 中 ， 可 以 得 到 图 12-10 中 所 示 的 结果 。( 本 例 
中 使 用 了 MOBP 的 批 处 理 形式 ， 即 在 整个 训练 集 出 现 以 后 参数 才 被 更 新 。 每 个 训练 样本 的 
梯度 计算 之 和 被 平均 在 一 起 以 达到 更 精确 的 梯度 估计 。) 这 个 轨迹 对 应 于 图 12-8 中 同样 的 初 
始 条 件 和 学 习 速 度 ， 不 同 的 是 动量 系数 7= 0.8。 可 以 看 到 算法 现在 是 稳定 的 。 由 于 使 用 了 
动量 项 ， 可 以 在 维持 算法 稳定 前 提 下 使 用 更 高 的 学 习 速度 。 动 量 的 另 一 个 特征 是 当 轨 迹 进 和 人 
某 个 一 致 的 方向 后 ， 它 可 以 加 速 收敛 。 
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图 12-10 ”带动 量 时 的 轨迹 
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如 果 你 仔细 观察 图 12-10， 可 以 发 现 该 方法 为 什么 用 动量 这 个 词 。 它 总 是 试图 保持 轨迹 
于 同一 方向 。 当 y 越 大 的 时 候 ， 轨 迹 的 “动量 " 越 强 。 
试验 动量 请 用 Neural Network Design Demonstration Momentum Backpropagation 
(nndi2mo), 





2. TEM EXER 
在 本 章 的 前 一 部 分 曾 建议 为 了 提高 收敛 速度 ， 可 以 在 较 平 坦 的 曲面 提高 学 习 速 度 ， 而 在 
斜率 增 大 时 减 小 学 习 速 度 。 本 节 中 将 尝试 这 个 方法 。 
前 面 曾 指出 单 层 线性 网 络 的 均 方 误差 性 能 曲面 总 是 一 个 二 次 函数 ， 且 赫 森 矩阵 是 常数 
的 ， 最 速 下 降 算法 的 最 大 稳定 学 习 速 度 是 2 除 以 赫 森 和 矩阵 的 最 大 特征 值 ( 见 (9.25) 式 )。 
正如 我 们 所 见 的 ， 多 层 网 络 的 误差 曲面 不 是 二 次 函数 。 曲 面 的 形状 随 参 数 空 间 区 域 的 不 
同 而 不 同 。 也 许可 以 在 学 习 过 程 中 通过 调整 学 习 速 度 来 提高 收 伍 速度 。 孩 巧 是 决定 何 时 改变 
学 习 速 度 和 怎样 改变 学 习 速 度 。 
可 变 学 习 速 度 的 VLBP 有 许多 不 同 的 方法 来 改变 学 习 速 度 。 这 里 介绍 一 种 非常 直观 的 
批 处 理 过 程 [LVoMa88]， 它 的 学 习 速 度 是 根据 算法 的 性 能 改变 的 。 可 变 学 习 迷 度 反 向 传播 算 
i (variable learing rate backpropagation，VLBP) 的 规则 如 下 ， 
1) 如 果 均 方 误差 (在 整个 训练 集 上 ) 权 值 在 更 新 后 增加 了 ， 且 超过 了 某 个 设置 的 百分数 % 
(上 典型 值 为 1% 至 5%)， 则 权 值 更 新 被 取消 ， 学 习 速 度 被 乘 以 一 个 因子 p(0 < 6e< 1)， 
并 且 动 量 系数 Y( 如 果 有 的 话 ) 被 设置 为 0。 
2) 如 果 平 方 误差 在 权 值 更 新 后 减少 ， 则 权 值 更 新 被 接受 ， 而 且 学 习 速 度 将 被 乘 以 一 个 
AF n> 1。 如 果 y 被 设置 为 0， 则 恢复 到 以 前 的 值 。 
3) 如 果 平 方 误差 的 增长 小 于 5， 则 权 值 更 新 被 接受 ， 但 学 习 速 度 保持 不 变 。 如 果 7 过 去 
被 设置 为 0， 则 恢复 到 以 前 的 值 。 
(关于 VLBP 的 数值 例子 请 见 例题 P12.3。) 
为 了 说 明 VLBP， 让 我 们 将 它 应 用 于 前 节 的 函数 返 近 问题 中 。 图 12-11 显示 了 算法 的 轨 
迹 ， 其 中 的 初始 条 件 、 初 始 学 习 速 度 和 动量 系数 与 图 12-10 所 用 的 相同 。 新 参数 的 设置 为 : 
n= 1.05, 6 = 0.7, tz 4% ` (12.11) 





at 
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图 12-11 可 变 学 习 速 度 的 轨迹 
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注意 学 习 速 度 和 步 长 在 轨迹 通过 按 常 数 递减 误差 的 直线 时 如 何 保持 增加 。 这 个 效应 在 图 
12-12 中 也 可 以 看 出 。 图 12-12 指出 了 平方 误差 和 学 习 速 度 与 迭代 次 数 之 间 的 关系 。 

当 轨 迹 进入 一 个 窄 谷 时 ， 学 习 速 度 迅 速递 减 。 否 则 轨迹 将 产生 振荡 ， 并 使 误差 迅速 增 
An. 在 每 步 增加 超过 4% 的 误差 当中 ， 学 习 速 度 减少 而 且 动 量 项 被 消除 ， 这 样 使 轨迹 可 以 迅 
速 转向 沿 罕 谷 到 极 小 点 的 方向 。 接 着 学 习 速 度 继续 增加 以 加 速 收敛 。 当 轨迹 超过 极 小 点 时 学 
习 速 度 再 次 下 降 ， 此 时 算法 已 经 基本 收 仿 。 这 个 过 程 是 典型 的 VLBP 轨迹 。 











15 - . 86 
平方 误差 学 习 速 度 
1 40 | 
0.5 | 20 
0 ou -一 一 一 一 -一 一 一 
10? 10! 10° 10? 10? 10! 10° 10° 
Iteration Number iteration Number 


图 12-12. VLBP 的 收敛 特征 


有 许多 关于 可 变 学 习 速 度 算法 的 变型 。Jacobs[ Jaco88] 提 出 了 delta-bar-delta 学 习 规 则 ， 
其 中 每 一 个 网 络 参数 ( 权 值 和 偏 置 值 ) 都 有 自己 的 学 习 速 度 。 如 果菜 个 参数 在 几 次 迭代 中 都 沿 
同一 方向 变化 ， 算 法 则 增加 网 络 参数 的 学 习 速 度 。 如 果 参 数 的 改变 方向 发 生变 化 ， 则 学 习 速 
度 递 减 。Tollenaere[ Toll90] 的 SuperSAB 算法 与 delta-bar-delta 规则 类 似 , 但 它 在 改变 学 习 速 
度 的 规则 方面 更 加 复杂 。 

另 一 种 对 SDBP 的 启发 式 变型 是 Fahlman| Fahl 88j] 的 Quickprop 算法 。 它 假设 误差 曲面 
是 抛物 面 且 在 极 小 点 附近 是 向 上 耳 的 ， 男 外 每 个 参数 的 影响 被 认为 是 相互 独立 的 (参见 19 章 
给 出 的 其 他 SDBP 改进 方法 )。 

对 SDBP 进行 启发 式 改进 对 某 些 问题 会 提高 收 倒 速度 。 但 这 些 方法 有 两 个 主要 缺点 : 首 
先 这些 改 进 需 要 设置 一 些 参数 (例如 5，p My), M SDBP 只 需要 一 个 学 习 速度 参数 。 某 些 更 
复杂 的 启发 式 改进 需要 设置 五 六 个 参数 。 算 法 的 性 能 对 这 些 参 数 的 改变 往往 十 分 敏感 。 参 数 
的 选择 还 是 问题 相关 的 。 这 些 对 SDBP 的 改进 的 第 二 个 缺点 是 它们 对 某 些 SDBP 最 终 能 找到 
解 的 问题 却 不 能 收敛 。 应 用 越 复杂 的 算法 这 些 问 题 越 容易 发 生 。 
实验 VLBP 请 用 Neural Network Design Demonstration Variable Leaming Rate 
Backpropagation ( nnd12vl) 。 





12.2.3 数值 优化 技术 


我 们 已 经 研究 了 一 些 用 启发 式 方法 改进 SDBP 的 算法 ， 现 在 来 考虑 一 些 基于 标准 数值 优 

化 技术 的 方法 。 这 里 将 考察 两 种 技术 ; 3t fupe BEIE fI Levenberg-Marquardt 方法 。 二 次 函数 

的 共 示 梯度 法 在 第 9 章 中 已 经 介绍 过 了 。 我 们 要 为 该 算法 增加 两 个 过 程 以 送 应 更 一 般 的 函 

数 。 

本 章 中 讨论 的 第 二 种 数值 优化 方法 是 Levenberg-Marquardt 算法 ， 它 是 牛顿 法 的 一 个 改 
进 并 且 非 常 适合 于 神经 网 络 训练 。 
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CGBP 第 9 章 中 介绍 了 3 种 数值 优化 技术 : BUR RENS. PRAM. ED 
下 降 法 是 最 简单 的 算法 ， 但 收敛 较 慢 。 和 牛顿 法 要 快 得 多 ,但 是 需要 计算 赫 森 矩阵 和 它 的 道 。 
HERRERNE: 它 不 需要 计算 二 次 导数 ， 但 仍然 具有 二 次 收敛 的 特性 ( 它 在 有 限 次 
迭代 后 能 收敛 于 到 二 次 函数 的 极 小 点 )。 本 节 将 介绍 怎样 将 共 轿 梯度 法 应 用 于 训练 多 层 网 络 。 
我 们 称 这 种 方法 为 夫 顽 梯度 反 向 传播 算法 (conjugate gradient backpropagation，CGBP)。 

让 我 们 首先 重 温 共 思 梯 度 法 。 为 便于 引用 起 见 ， 我 们 将 重复 第 9 章 的 算法 步 又。 

1) 选择 初始 搜索 方向 p, 为 梯度 的 反 向 量 ， 如 式 (9.59): 


po =- 8o (12.12) 
其 中 
g: = VF(x) lx=x, (12.13) 
2) 根据 式 (9.57) 取 一 步 ， 选 择 学 习 速 度 u ， 沿 搜索 方向 最 小 化 函数 : 
Xx41 = Xy + Op, (12.14) 
3) 根据 式 (9.60) 选 择 下 一 个 搜索 方向 ， 利 用 式 (9.61)，(9.62) 和 (9.63) 计 算 B: 
P, =- & + EB. (12.15) 
ae Ag, B; gig, Agg: 
i- 一 一 或 B= 一 一 一 或 B= 一 一 一 (12.16) 
Ag, ipi: 8,1841 181-1 


4) 如 果 算 法 不 收敛 ， 继 续 第 2 步 。 

这 样 的 共 扼 梯度 算法 不 能 直接 应 用 于 神经 网 络 训练 ， 因 为 性 能 指数 不 是 二 次 的 。 这 在 两 
个 方面 影响 算法 。 首 先 ， 不 能 用 式 (9.31) 沿 直线 最 小 化 函数 (这 是 第 2 步 所 需 的 ) 。 其 次 通常 
不 能 在 有 限 步 内 得 到 精确 的 最 小 值 ， 因 此 算法 在 迭代 过 若干 次 之 后 需要 重新 设置 。 

首先 来 看 线性 搜索 。 需 要 一 个 一 般 的 过 程 去 确定 函数 在 某 个 特定 方向 的 极 值 。 这 包括 两 
步 : 区 间 定 位 和 区 间 缩 小 。 区 间 定 位 步 的 目的 是 找 某 个 包含 局 部 极 小 点 的 初始 区 间 。 区 间 缩 
小 步 接着 将 缩小 初始 区 间 直 到 满足 一 定 精 度 的 极 小 点 被 定位 。 

区 间 定 位 ”我 们 使 用 一 种 函数 比较 方法 fScal85] 去 处 理 区 闻 定 位 ， 这 一 步 如 图 12-3 所 
示 。 一 开始 计算 某 个 初始 点 的 性 能 指数 ， 由 图 中 a 表示 。 该 点 表示 网 络 权 值 和 偏 置 值 的 当 
前 值 。 按 句 话 说， 我 们 是 在 计算 

F(x) (12.17) 


下 一 步 是 计算 第 二 点 的 函数 值 ， 由 图 中 b 点 表示 ， 它 上 距 初 始点 距离 是 e 且 沿 初始 搜索 
方向 pu。 换 名 话说， 我 们 是 在 计算 
F(xo + epo) (12.18) 
继续 计算 新 点 b 的 性 能 指数 (点 之 间 的 距离 依次 增加 一 倍 )。 这 一 过 程 直 到 连续 两 次 计 
算 的 函数 值 增加 时 结束 。 这 在 图 12-13 中 用 b3, ba 表示 。 此 时 可 以 知道 极 小 点 是 在 as 和 bs 
之 间 。 不 能 将 区 间 缩 得 更 小 ， 这 是 因为 极 小 值 可 能 在 [a4，6b4] 之 间或 在 [a3，6b3j] 之 间 。 这 
两 种 可 能 的 情况 如 图 12-14(a) 所 示 。 i 
区 间 缩 小 ”现在 已 经 定位 了 包含 极 小 点 的 区 间 ， 线 性 搜索 的 下 一 步 是 区 间 缩 小 。 它 将 包 
括 计算 区 间 [a;s，bs] 内 点 的 函数 值 ，[ a;，4s] 是 由 区 间 定 位 步 得 到 的 。 从 图 12-14 中 可 以 看 
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图 12-13 区间 定 位 


出 至 少 必 须 计算 两 个 内 部 点 的 函数 值 以 减少 不 确定 区 间 的 尺寸 。 图 12-14(a) 省 出 一 个 区 间 的 
函数 值 计 算 不 能 提供 极 小 点 定位 的 任何 信息 。 但 是 ， 如 果 计 算 了 两 个 点 “ 和 d( 如 图 12-14 
(b))， 可 以 缩小 不 确定 的 区 间 。 如 果 Fc) > F(d)( 如 图 12-14(b) 所 示 )， 则 极 小 点 必定 在 
[ce， 妇 区 间 内 。 反 之 ， 如 果 F(c)« Fld), WR), d] RAMA. GER, BREW 
始 区 间 中 只 有 一 个 极 小 点 。 后 面 要 作 进一步 讨论 。) 


F(x) 





a c d b 
(a) 不 缩小 区 间 (b) 极 小 点 必须 出 现在 c 与 b 之 间 


图 12-14 减少 不 确定 区 间 的 大 小 


黄金 分 割 搜 索 上 述 过 程 描述 了 减少 不 确定 区 间 尺 寸 的 方法 。 现 在 需要 确定 如 何 找到 
内 部 点 c Ad 位 置 的 方法 。 有 一 些 方 法 能 实现 它 ( 见 [Scal85})。 我 们 使 用 一 种 称 为 黄金 分 害 
搜索 的 方法 ， 它 可 以 减少 函数 计算 的 次 数 。 每 次 迭代 只 需要 计算 一 次 函数 值 。 例 如 ， 在 图 
12-14(b) 的 例子 中 ， 点 a 可 以 丢弃 而 点 e 成 为 外 部 点 。 于 是 一 个 新 的 点 “ 将 在 原来 的 点 “ 和 
点 d 之 间 。 技 巧 是 放置 新 的 点 以 便 尽 快 减 少 不 确 定性 区 间 。 
黄金 分 割 搜索 算法 如 下 所 示 [ Scal85]: 
rt 20.618 
set ci=a; *(1- z)(b17 aj), F= FCO)) 
di-b,-(1-r)(b4- aj), Fa 7 F(di) 
for k=1, 2,... repeat 
If F, < Fg then 
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set G41 =k; de = dys dyn = Ck 
Ck+1 = ay,1* (L— 7) (bya. — 24.1) 
Fa= Fk.; F.=F(c,41) 


12-17, else 
set O41 = Ck; brei = br; Ck+1= di 
drsi = br- (1-r)C bri- au) 
F.= Fa; Fa=F(dis1) 
end 


end until 5,41 — a4,, < tol 
其 中 tol 是 用 户 给 定 的 精度 上 限 。( 关 于 区 间 定 位 和 区 间 缩 小 过 程 的 数值 例子 请 见 例题 
P12.4。) 

要 使 共 斩 梯 度 法 应 用 于 神经 网 络 训练 ， 有 若干 地 方 需要 改进 。 对 二 次 函数 算法 将 至 多 在 
n KER AREA, AP n 是 被 优化 的 参数 数目 。 由 于 多 层 网 络 的 平方 误差 性 能 指 
数 不 是 二 次 汕 数 ， 所 以 算法 一 般 不 能 在 n 次 迄 代 内 收敛 。 共 纯 梯度 法 的 发 展 并 不 意味 着 在 
同一 搜索 方向 下 包含 ”次 和 迭代 过 程 的 一 个 周期 就 可 以 结束 。 这 可 能 有 多 个 过 程 ， 但 最 简单 
的 方法 是 在 ”次 迭代 之 后 将 搜索 方向 重新 设置 为 最 速 的 下 降 方向 [Scal 85]。 我 们 将 使 用 这 
一 方法 。 

让 我 们 现在 把 共 斩 梯 度 法 应 用 于 解释 其 他 神经 网 络 训练 算法 的 画 数 逼 近 例 子 中 。 我 们 将 
用 反 向 传播 算法 计算 梯度 (用 式 (11.23) 和 (11.24))， 并 用 共 扼 梯度 法 决定 权 值 的 更 新 。 这 里 
仍 采用 批 处 理 算法 ， 即 梯度 是 在 整个 训练 集 都 应 用 于 网 络 后 才 计 算 的 。 

图 12-15 显示 了 CGBP 算法 在 三 次 迭代 后 的 中 间 步 。 区 间 定 位 过 程 由 小 空心 圆圈 表示 ; 
每 一 个 点 表示 一 次 函数 的 计算 ， 最 终 区 间 由 较 大 的 空心 圆 图 表示 ， 图 12-15 中 的 小 黑 点 表示 
用 黄金 分 割 搜 索 的 新 的 内 部 点 ， 每 一 个 对 应 于 一 次 迭代 过 程 。 最 终点 是 由 大 峙 点 表示 。 











图 12-15 CGBP 的 中 间 步 又 


图 12-16 表示 收敛 的 整个 轨迹 。 注 意 ，CGBP 算法 要 比 我 们 试 过 的 所 有 其 他 算法 都 少 的 
迁 代 次 数 收敛。 这 有 一 点 欺骗 性 ， 因 为 CCBP 的 每 次 迭代 较 其 他 方法 需要 更 多 的 计算 ;在 
CGBP 的 每 次 迁 代 中 包括 了 多 次 函数 计算 。 即 使 如 此 ，CBGP 算法 也 是 多 层 网 络 批 处 理 训练 
TE 算法 中 最 快速 的 方法 之 一 [Char92]。 
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试验 CGBP 请 用 Neural Network Design Demonstration Conjugate Gradient Line 
Search(nndl2ls) fe Conjugate Gradient Backpropagation( nnd12cg) o 





2. Levenberg- Marquardt 算法 
Levenberg- Marquardt 算法 是 牛顿 法 的 变形 ， 用 以 最 小 化 那些 作为 其 他 非 线 性 函数 平方 


和 的 函数 。 这 非常 适合 于 性 能 指数 是 均 方 误差 的 神经 网 络 训练 。 


基本 算法 
让 我 们 从 考虑 性 能 指数 是 一 组 平方 和 的 牛顿 方法 的 形式 开始 。 由 第 9 章 知 ， 优 化 性 能 指 


数 F(x) 的 牛顿 方法 是 
Xk+l1 = XC— Ai!g, (12.19) 
其 中 A,=V°F(x)lx=x,; g, =VF(x)|x=x, 0 
雅 可 比 矩 阵 如果 假 设 F(x) PARRA, BB 





F(x) = >) 03(x) = v GOv(x) (12.20) 
那么 第 ; 个 梯度 分 量 为 
[VF(x)]; = aroo = 2) v(x) (12.21) 
j i=l J 
因此 梯度 可 以 写成 矩阵 形式 ; 
VF(x) = 2J7(Cx)v(x) (12.22) 
其 中 
3 vi(x) 3v, (x) vee Ivi (x) 
dx, 9 x2 9x, 
9v4(x) 9vo;(xX) ~ 9v2(X) 
J(x) = 8x, 9 x2 9x, (12.23) 
aow(x) Avy(x) 9 vy (x) 





3x] Ó x» UU Ox, 
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J-x ABT Y 4E HE, 
FRAR. tRNA k, j 元 素 为 


[A^ F(x) ],,) = F(x) 2 ge ee no 5252 | (12.24) 








^ Ox, x; = 9 x, x48 
赫 森 矩阵 于 是 可 以 表示 为 
V?F(x) = 2J7(x)Jx) + 2S(x) (12.25) 
其 中 
S(x) = ye (x) V (x) (12.26) 
如 果 假 设 SCx) 很 小 ， 可 以 将 赫 森 矩阵 近似 表示 为 
V?F(x) = 2J7(x)JCx) (12.27) 


高 斯 -牛顿 方法 将 (12.27) 式 和 (12.22) 式 代 人 (12.19) 式 ， 可 以 得 到 高 斯 -牛顿 方法 : 
Xeat = Xy - (237 32J(x0 ]712J7 (x4) v (x4) 
= X% 一 [J7(x,2J(x,2 17 (x) (x) (12.28) 
注意 高 斯 -牛顿 方法 较 标 准 牛顿 法 的 优点 是 不 需 计 算 二 阶 导数 。 
高 斯 -牛顿 方法 的 一 个 问题 是 矩阵 H -=J 可 能 不 可 逆 。 这 可 以 用 下 述 近 似 赫 森 和 矩阵 改 


进 : 
G-H.y (12.29) 
为 看 出 这 个 和 矩阵 是 可 道 的 ， 设 五 的 特征 值 和 特征 向 量 为 六 ， s ARV. z2 
Zal, WA 
= [H + plz; = Hz; + uZ; = AjZi 十 uZ; = (A; + p)zi (12.30) 


因此 G 的 特征 向 量 与 再 的 特征 向 量 相 同 ， 且 G 的 特征 值 为 \; + px 。 对 所 有 i， 增 加 yy 以 保证 
Xi+R> 0， 可 使 GRAEN, HAERA, 
Levenberg-Marquardt 算法 ”由 此 可 导出 Levenberg-Marquardt 算法 [ Scal85] ， 
X,,1 = Xy - [JA (x)J xj) + iul] 71? (x, v(x;) (12.31) 
或 
Ax, = - [J I (x) Tx) + El (x, v(x, ) (12.32) 
这 个 算法 的 一 个 非常 有 用 的 特点 是 : 当 pu 增加 时 ， 它 接近 于 有 小 的 学 习 速 度 的 最 速 下 
FERAS: 
Xii & Xp - o Gov) = = zc FO) TEAM py (12.33) 


当心 下降 到 0 的 时 候 ， 算 法 变 成 了 高 斯 -牛顿 方法 。 
算法 开始 时 u, 取 小 值 ( 例 如 ps = 0.01)。 如 果 某 一 步 不 能 减少 F(x) 值 ， 则 将 u 乘 以 一 
个 因子 9> 1( 例 如 6= 1.0) 后 再 重复 这 一 步 。 最 后 F(x) 会 下 降 ， 因 为 使 用 最 速 下 降 方 向 的 一 
小 步 。 如 果 某 一 步 产生 了 更 小 的 F(x)， 则 px 在 下 一 步 被 除 以 6， 这 样 算法 就 接近 于 高 斯 - 牛 
顿 方 法 ， 该 方法 能 提高 收敛 速度 。 这 个 算法 提供 牛顿 法 的 速度 和 保证 收敛 的 最 速 下 
降 法 之 间 的 一 个 折衷 。 
现在 来 看 如 何 将 Levenberg-Marquardt 算 法 应 用 于 多 层 网 络 训练 问题 。 多 层 网 络 训练 的 
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性 能 指数 是 均 方 误差 ( 见 式 (11.11))。 如 果 每 一 个 目标 以 相同 的 概率 出 现 ， 均 方 误 差 就 正比 
于 训练 集中 下 述 所 有 Q 个 目标 的 平方 误差 之 和 : 


FG) = Pt, - a) (t, - aj) 


-Xe te = SNe Do) (12.34) 


其 中 。 E g 个 输入 /目标 对 的 误差 的 第 j 项 元 素 

式 (12.34) 等 价 于 性 能 指数 式 (12.20) (Levenberg-Marquardt 方法 )。 所 以 ， 为 网 络 训练 
调整 算法 将 是 很 直观 的 。 结 果 表 明 这 在 概念 上 是 正确 的 ,但 在 细节 上 要 加 以 注意 。 

雅 可 比 计算 

Levenberg- Marquardt 算法 中 的 关键 一 步 是 雅 可 比 矩 阵 的 计算 。 用 一 种 BP 算法 的 变形 来 
进行 计算 。 回 忆 在 标准 BP 算法 中 ， 以 网 络 的 权 值 和 偏 置 值 计算 平方 误差 的 导数 。 为 了 产生 
雅 可 比 和 矩阵 ， 需 要 用 误差 的 导数 来 代替 平方 误差 的 导数 。 

从 概念 上 说 ， 修 改 BP 算法 以 计算 雅 可 比 和 矩阵 的 元 素 是 很 容易 的 。 但 是 ， 虽然 概 念 上 很 
简单 ， 实 现 上 却 需 要 一 些 技巧 。 因 此 ， 在 第 一 次 阅读 时 你 可 以 先 跳 过 本 节 的 其 余部 分 以 获得 
算法 流程 的 总 体 概念 ， 而 后 再 返回 来 看 细节 。 在 继续 看 下 去 之 前 ， 先 复习 第 11 章 中 BP E 


法 的 推导 是 有 益 的 。 
在 介绍 计算 雅 可 比 阵 的 过 程 之 前 ， 先 仔细 观察 它 的 形式 ( 式 (12.23))。 注 意 误差 向 量 为 
v = [vivas exl = [ei ean egt 61277 eg g] (12.35) 
参数 向 量 为 
xP [ep age an) = (12.36) 


其 中 N-2QxSM, n= S'(R4+1)+S2(S'41) 4-4 SM(SM-141), 
因此 ， 可 以 把 这 些 式 子 代入 式 (12.23) 中 ， 多 层 网 络 训练 的 雅 可 比 和 矩阵 可 以 写 为 

















2e, Je, 2e, Jey 
Jer, Fe.) Je Jer) 
dw}, wi wht, 2H 
JOO = Dest, Fes Dem Jea (12.37) 
wl, wla whi, 2b 
dey, Iela 9e1, Jey 
3 wi, awl, 7 Jwsp Ibi 


雅 可 比 矩 阵 中 的 元 素 ， 可 以 由 BP 算法 的 简单 改进 计算 。 标 准 BP 算法 的 计算 公式 为 : 
aF(x) dele, 


- (12.38) 
d xi ax) 
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对 Levenberg- Marquardt Hk "P Br A RE RI LORE OR, eA TP: 








3v, P664 
[Slaw = dx) = an, (12.39) 
回忆 BP 算法 中 的 导数 ( 式 11.18) 
3È ab an; 
TIRE awh (12.40) 
上 式 右 边 第 一 项 被 定义 为 敏感 度 
` m JÊ 
LEER: (12.41) 





Marquardt 敏感 度 ”BP 算法 中 用 递归 关系 从 最 后 一 层 回 到 第 一 层 计算 敏感 度 。 可 以 用 
同样 的 概念 计算 雅 可 比 和 矩阵 的 各 项 ( 式 (12.37))， 如 果 定 义 新 的 Marquardt 敏感 度 : 


Jv, Pek, 











8; = m = (12.42) 
,h anig Ini 
其 中 ， 由 式 (12.35), hi2 (4-1 5" +k. 
可 以 用 下 式 计 算 雅 可 比 矩 阵 的 元 素 : 
3 dey. dep, Pn? ant 
(a = gt ee x = a x ay! (2.43) 
XI Iw? an? Iwr, , aw, ， j:q 
如 果 x, 是 偏 置 值 
a 9 an™ an” 
a Up eg Ek,g Ning Mig 
(Jar = 32 = = x = 57, x = 5” (12.44) 
M7 Ox ^ apr anm abr — apm 


了 q L 


Marquardt 敏感 度 可 以 通过 标准 敏感 度 同 样 的 递归 关系 计算 ( 式 (11.35))， 只 是 在 最 后 一 层 


Ta 有 所 修改 : 标准 BP 算 法 由 式 (11.40) 计 算 。 对 Marquardt 敏感 度 ， 有 





M 
.M 9v, Jey, a( teq 一 ay 4) 2a, 4 
Sisk any 74M = M 一 ”> M 
i.q 9nj, ani, anig 
一 f" (nM ) ， i= 
_ | isa (12.45) 
0 ， izk 


所 以 当 输 入 P, 作用 于 网 络 且 对 应 的 网 络 输出 a” 计算 出 后 ，Levenbery-Marquardt Bc [5] 
传播 被 初始 化 为 
S” =- F"(n) (12.46) 


其 中 FY(ny) 由 (11.34) 式 定义 。 矩 阵 S 的 每 一 列 用 式 (11.35) 通 过 网 络 进行 反 向 传播 产生 
雅 可 比 和 矩阵 的 一 行 。 各 个 列 也 可 以 用 下 式 进行 反 向 传播 : 


S” = F” (np) (W+!) TSY (12.47) 
每 层 的 总 体 Marquardt 敏感 度 矩 阵 可 以 由 增 广 每 个 输入 计算 出 的 矩阵 而 创建 : 
S” = [Sr|Sr | 183] (12.48) 
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注意 ， 对 每 个 提交 给 网 络 的 输入 ， 将 反 向 传播 SU 的 敏感 度 向 量 。 这 是 由 于 计算 每 个 单 
独 误 差 的 导数 ， 而 非 平方 误差 和 的 导数 。 对 每 一 个 作用 于 网 络 的 输入 都 有 SY 个 误差 (每 个 
误差 都 对 应 于 网 络 的 一 个 输出 )。 对 每 个 误差 都 有 雅 可 比 矩 阵 的 一 行 。 

当 敏 感度 被 反 向 传播 后 ， 雅 可 比 矩 阵 由 式 (12.43) 和 (12.44) 计 算 。 请 兄 例题 P12.5 关 

于 雅 可 比 计算 的 数值 示例 。 

LMBP Levenberg-Marquardt BP A ECLMBPORUEACSEREBES UT : 

1) 将 所 有 输入 提交 网 络 并 用 式 (11.41) 和 (11.42) 计 算 相应 的 网 络 输出 和 误差 e t, - 
ax 。 用 式 (12.34) 计 算 所 有 输入 的 平方 误差 和 F(x)。 

2) 计算 雅 可 比 矩 阵 式 (12.37)。 首 先 用 式 (12.46) 初 始 化 敏感 度 ， 再 用 式 (12.47) 递 归 计 
算 敏 感度。 用 式 (12.48) 将 各 个 单独 的 托 阵 增 广 到 Marquardt 敏感 度 中 。 用 式 
(12.43) 和 (12.44) 计 算 雅 可 比 阵 的 元 素 。 

3) 解 式 (12.32) 求 得 Axk。 

4) 用 x, + Ax, 重复 计算 平方 误差 的 和 。 如 果 新 的 和 小 于 第 1 步 中 计算 的 和 ， 则 用 只 除 以 
6, Fitmax tA, PRIG; 如 果 和 没有 减少 ， 则 用 4 乘 以 9 ， 转 第 3 步 。 

当 梯 度 的 模 ((12.22) 式 ) 小 于 给 定 值 ， 或 平方 误差 和 减 小 到 某 个 目标 误差 时 ， 算 法 被 认 

为 收敛 。 
为 了 说 明 LMBP， 将 它 应 用 到 本 章 开始 时 介绍 的 函数 逼近 的 例子 中 。 首 先 看 一 下 基本 的 
Levenberg-Marquardt 计算 步骤 。 图 12-17 ULAR ESA ERP LMBP 算法 可 能 产生 的 计算 








"n 


图 12-17 — Levenberg- Marquardt 计算 步 又 


向 上 箭头 表示 较 小 几 所 取 的 方向 ， 对 应 于 高 斯 -牛顿 法 的 方向 。 偏 右 方 箭头 表示 较 大 
上 所 取 的 方向 ， 对 应 于 最 速 下 降 法 。 (这 是 前 面 讨论 过 的 算法 的 初始 取向 。) 丙 箭头 之 间 的 线 
表示 中 等 大 小 uu 的 Levenberg-Marquardt 步骤 。 注 意 ， 当 jx 增加 时 算法 向 最 速 下 降 法 的 方 
向 移动 一 小 步 。 这 意味 着 算法 的 每 次 迭代 都 能 减少 平方 误差 和 。 

12-18 显示 LMBP 轨迹 的 收敛 路 径 (uo =0.01，6= 5)。 注 意 ， 算 法 收 伍 的 选 代 次 数 较 
前 面 讨论 的 所 有 算法 都 少 。 当 然 这 个 算法 在 每 次 迭代 时 的 计算 量 比 任何 其 他 算法 大 (因为 要 
求 矩 阵 的 逆 )。 但 是 ， 对 于 中 等 数量 的 网 络 参数 ， 即 使 要 作 大 量 计算 ，LMBP 算法 依然 是 最 
快 的 神经 网 络 训练 算法 [HaMe94]。 
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平方 误差 














图 12-18 LMBP 轨迹 


试验 LMBP 算法 请 用 Neural Network Design Demonstration Marquardt Step 
(nndl2ms) 和 Marquardt Backpropagation( nnd12m) 。 





LMBP 算法 的 主要 缺点 是 存储 需求 。 算 法 需要 存储 近似 赫 森 矩阵 JJ， 这 是 一 个 xn 
和 矩阵， 其 中 ”是 网 络 中 的 参数 ( 权 值 和 偏 置 值 ) 数 目 。 回 忆 其 他 算法 只 要 存储 一 个 n 维 向 量 
的 梯度 。 当 参数 数目 非常 大 的 时 候 ，Levenberg- Marquardt 算法 可 能 是 不 实用 的 (“非常 大 " 依 
(12-27) 赖 于 你 计算 机 上 的 存储 器 ,但 典型 的 上 限 是 几 千 个 参数 )。 


12.3 小 结 


启发 式 BP 算法 改进 


批 处 理 

在 整个 训练 集 都 提交 网 络 后 才 更 新 参数 。 平 均 每 个 样本 计算 出 的 梯度 以 得 到 更 精确 的 梯 

度 估 计 。( 如 果 训 练 集 是 完全 的 ， 即 覆盖 了 所 有 可 能 的 输入 /输出 对 ， 则 梯度 估计 是 精确 

的 。) 

动量 BP 算法 (MOBP) 

AW” (k) = YAW” (k - 1) - (1 -= Y)as” (a"7!)T 
Ab” (k) = YAb"(k ~- 1) - (1 - y)as” 

可 变 学 习 速 度 的 BP 算法 (VLBP) 

D 如 果 一 次 权 值 改变 后 平方 误差 (在 整个 训练 集 上 ) 的 递增 超过 某 个 百分数 5( 典 型 值 为 
1% ~5%)， 则 权 值 改变 被 取消 ， 学 习 速 度 乘 以 一 个 小 于 1 的 因子 po， 动量 系数 Y (如 
果 有 的 话 ) 设 为 0。 

2) 如 果 数 值 改变 后 的 平方 误差 递减 ， 则 接受 权 值 更 新 ， 学 习 速 度 乘 以 大 于 1 的 因子 ne 
WB y 过 去 设置 为 0， 则 恢复 到 原来 的 值 。 

3) 如 果 平 方 误差 递增 不 超过 5， 则 接受 权 值 更 新 ， 但 学 习 速 度 和 动量 系 度 都 不 变 。 
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数值 优化 技术 


共 扼 梯度 法 
区 间 位 置 





区 间 缩 小 (黄金 分 割 搜索 ) 
t=0.618 
set c;2a, *(1-x9)(bj- ai), F= Fle) 
di2b,-(1-x)(5,—a,), F= F(d,) 


for k=1, 2, * repeat 
if F, < Fy then 
set — aj,17 OKs by im dys deri = Ch 
Chat = Opa, + (17 (54,1 7 a4, 1) 


F;-Fa F2 F(ck41) 


else 
set Ok. 17 Ck $ bya = bks Cha) = di 
dia. = Ope - (1-3) (ba ~ 0441) 
F,= Fas Fas F(d,,i) 
end 


end until b;,; — @,41 < tol 


Levenberg - Marquardt BP(LMBP) 算 法 
Ax, =- [JT (x, ) I(x) + gu 171J7 (x, wx) 
Ut egt eja” es" o] 


" bo] 


v? z[w voc vy] = [614 €2,1 
1 l1. Bly Q2 
ws! py bg wy 


x” = [xi xo x,lz [wi Wia'" 
e. SHC S¥-1 41) 


N= Ox Sand n = S'(R4+1)+ SCS! e +: 
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Jey Jey Je, Jey 
1 1 
awl; Iwl, awli ab} 
Jez, Jezi Jey Jez 
Iwi Iwi dws! p 3b] 
J(x) = 
de,M, dem | des  , dem , 
1 1 1 1 
9wi, Fwy, dwst ap 901 
dei 9e1,2 Jel 9e1,2 
awi, Iwl dwstp 9d; 
对 权 值 XI 
v, Je, y ex, In}, 4 an; 
Ulhi23,-2——-——X ~ Sih = Sina X aN 
" Qui; Ini Owe; Wij 
对 偏 置 值 x, 
[J] _ 9v, _ 2e, , _ Je, q Oni, x np, a 
hl = ax, T 3b” ~ an™ apm ih X 3b” = 9j 
i nj a i i 
m 9v, 2e, 4 eM 
hn F ( Marquardt 敏感 度 )， 其 中 hh=(g-1)5 +k 
Inra nj, 
SM =- FM (nil) 
$^ = F™(n™) (Wr!) Sm+! 
8" - [Sr isp 1-187] 


Levenberg- M arquardt ERK 

1) 将 所 有 输入 提交 网 络 并 用 式 (11.41) 和 (11.42) 计 算 相 应 的 网 络 输出 和 误差 el = t, - 
ay 。 用 式 (12.34) 计 算 所 有 输入 的 平方 误差 之 和 F(x). 

2) 用 式 (12.37) 计 算 雅 可 比 矩 阵 。 首 先 用 (12.46) 式 初始 化 敏感 度 ， 再 用 (12.47) 递 归 计 
算 ， 用 式 (12.48) 将 各 个 矩阵 增 广 到 Marquardt 敏感 度 中 。 用 式 (12.43) 和 (12.44) 计 
算 雅 可 比 阵 的 元 素 。 

3) 解 (12.32) 式 求 Axk。 

4) Hi x, + Ax, 重复 计算 平方 误差 之 和 。 如 果 新 的 和 小 于 第 1 步 中 计算 所 得 的 和 ， 则 把 六 
除 以 6， 并 设 xi =x, + Ax, ESRB 1 步 。 如 果 平 方 误差 和 没有 减少 ， 则 4 RA O, 
转 第 3 步 。 


12.4 例题 
P12.1 用 训练 集 { (pi =[ -3]),，(t =[0.5])}, I(pz[2D, (6S (1) VE 12-19 
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中 的 网 络 ， 初 始 值 为 w (0) = 0.4，48(0) = 0.1$。 用 批 处 理 和 非 批 处 理 的 SDBP 方法 ， 说 明 
第 一 步 方向 计算 中 批 处 项 的 影响 。 
输入 Log-Sigmoid 层 


reo fe 
b 
vu 


a = logsig(wp+b) 
图 12-19 例题 P12.1 的 网 络 


解 
首先 计算 不 用 批 处 理 的 初始 步 的 方向 。 此 时 第 1 步 由 第 一 个 输入 “目标 对 计算 。 前 向 传 


播 步 和 反 向 传播 步 为 


a = logsig(wp + b) = Tala = 0.2562 
e = t-a = 0.5 -0.2592 = 0.2408 
s 2-2f(n)e 2 -2a(1 - ae =- 2(0.2592)(1 - 0.2592)0.2408 = - 0.0925 
初始 步 的 方向 是 梯度 的 反方 向 。 此 时 权 值 为 
- sp =-(-0.0925)(-3) = - 0.2774 
对 于 偏 置 值 有 
— s = — (- 0.0925) = 0.0925 
因此 在 (w ，6) 平 面 中 初始 步 的 方向 为 
e] 
0.0925 
现在 考虑 批 处 理 算法 的 初始 步 的 方向 。 此 时 的 梯度 是 由 两 个 输入 /目标 对 集合 的 梯度 选 
加 而 成 。 因 此 ， 需 要 将 第 2 个 输入 提交 网 络 并 进行 前 向 和 反 向 传播 处 理 步骤 ; 


a = logsig(wp + b) = 1 Hexp(- TEO £0.15) = 0.721 
e = 1-a=1-0.7211 = 0.2789 
s =-2f(n)e - - 2a(1- ade =- 2(0.7211)(1 ~ 0.7211)0.2789 = - 0.1122 
操作 步 的 方向 是 梯度 的 反方 向 。 对 权 值 这 将 是 
- sp =-(-0.1122)(2) = 0.2243 





对 偏 置 值 有 
-5=-(-0.1122) = 0.1122 


因此 第 二 个 输入 /目标 对 的 部 分 梯度 为 


0.2243 
0.1122 
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如 果 将 两 个 输入 /目标 对 的 结果 相 加 ， 可 以 得 到 批 处 理 模式 下 SDBP 第 1 步 的 方向 为 


1 peu [oe] i|. | 0:0265] 
>l 0.0925 | *[0.11221/ ^ 2| 0.2047 ! ~ | 0.1023 

结果 如 图 12-20 所 示 。 黑 圆圈 指示 初始 点 。 两 边 的 箭头 表示 两 个 输入 /目标 对 的 部 分 梯 
度 方向 ， 中 间 的 箭头 表示 总 梯度 的 方向 。 画 出 的 函数 是 整个 训练 集 的 平方 误 盖 之 和 。 注 意 单 
个 梯度 分 量 可 以 指向 与 真实 梯度 完全 不 同 的 方向 。 但 是 ， 一 般 说 来 ， 在 若干 次 迭代 后 ， 路 径 
将 沿 着 最 速 下 降 轨 迹 。 

批 处 理 模 式 对 逐渐 交 近 的 相对 影响 是 强烈 依赖 于 特定 问题 的 。 逐 渐 逼 近 不 需要 更 多 的 存 
储 ， 而 且 如 果 提 交 给 网 络 的 输入 是 随机 的 ， 轨 迹 也 会 是 随机 的 ， 这 使 算法 有 时 会 落 和 人 局 部 极 
小 点 ， 并 且 较 批 处 理 算法 花费 更 多 的 时 间 。 









7 
2 € 





RE 3 
TUA 
i n mud 


N) 
p: AX) A INN iH 
4 b 3 wh eee 2 N i 
E . P “ 














图 12-20” 批 处 理 对 例题 P12.1 的 影响 


P12.2 在 第 9 章 中 证 明了 将 最 速 下 降 法 应 用 于 二 次 函数 时 ， 如 果 学 忆 速 度 小 于 2 除 以 赫 森 
和 矩阵 的 最 大 特征 值 ， 则 算法 是 稳定 的 。 如 果 将 动量 项 加 和 到 最 速 下 降 法 ， 证 明 总 是 由 动量 系数 
决定 算法 的 稳定 性 而 非 学 习 速 度 。 遵 循 9.2.1 节 的 “稳定 的 学 习 速 度 " 一 段 的 格式 进行 证 明 。 
解 
标准 最 速 下 降 算法 为 
AX, = 一 aV F(x,) =- ag, 
如 果 加 上 动量 项 ， 它 变 成 
Ax, = YAxy., - (1 - Yag, 


由 第 8 章 ， 二 次 函数 的 形式 为 
F(x) = SxTAR +d’x+c 
二 次 函数 的 梯度 为 
VF(x) = Ax+d 


将 该 式 代 和 人 有 动量 项 的 最 速 下 降 算法 中 ， 得 到 
Ax, = YAX; - (1 - Y)o(Ax, + d) 


使 用 定义 Ax, =X X, EASA 
Xtal — X, = Y(x, 一 X,-1) - (1 - y)o( Ax, + d) 
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或 
Xia. = [((14pI-(1- Y)aA x, — YXi.1 — (1 - y)ad 
现在 定义 一 个 新 向 量 
~ 四 
X, = 
Xi 
带动 量 的 最 速 下 降 法 变形 可 写成 
SEN TENES 
Yer 7i ox [üq2»1-(-».A]I ^ l- (125941 = 7 


如 果 W 的 特征 值 的 模 都 小 于 1， 则 该 线性 系统 是 稳定 的 。 我 们 将 找到 W 的 特征 值 。 首 
先 ， 重 写 W 为 
0 I 
-y T 


W 的 特 值 和 特征 向 量 应 满足 


w =| |, deer = ta DI a- vea] 


BD 
z -A"zl 和 - ya’ + T = X" 
此 时 选择 zr 作为 矩阵 全 的 特征 向 量 ， 对 应 的 特征 值 为 X*。( 如 果 这 个 选择 不 恰当 ,将 
会 导出 矛盾 。) 因 此 上 式 变 为 
zn-auu 和 -y + Atay = AY ay 
将 第 一 个 式 子 代 人 第 二 个 式 子 有 
- Lu + Age = Mae 或 [()?- A QU) + ylz 20 
因此 ， 对 于 工 的 每 个 特征 值 RA W 的 两 个 特征 值 * 满足 二 次 方程 
(149)? - NA") +7 = 0 


由 二 次 方程 求 根 公式 
| we Ma VOV A 
B 2 
如 果 算 法 要 稳定 ， 则 要 求 每 个 特征 值 的 模 都 小 于 1。 我 们 将 说 明 总 是 存在 y K-MER RE 
这 个 条 件 。 
注意 ， 如 果 特 征 值 X“ 为 复数 ， 则 它 的 模 为 /Y: 


ia” | m GAY 十 全 人 - Vy 
(01024 A 为 实数 时 成 立 。 下 面 将 说 明 入 : 为 实数 。) 由 于 y 在 0 和 1 之 间 ， 所 以 特征 值 的 模 必 
小 于 1。 正面 将 说 明 ， 存 在 y 的 一 个 范围 使 所 有 的 特征 值 都 为 复数 。 
ATH” 为 复数 ， 必 须 有 

(NYP -4y «0 或 |X'| < 2Y 
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考虑 了 的 特征 值 X:。 这 些 特征 值 可 以 由 A RIE BIAs occ, An) 和 
Iz. om. ccs n | 为 赫 森 矩阵 的 特征 值 和 特征 向 量 ， 则 
Tz, = [(1 + I - (1- yoA]z; = (1+7)zi- (1 -YaAz, 
12-36; = (14+ y),-( -Yeyz = | +7) - (0- yea; ta, = Nz 
因此 人工 的 特征 向 量 与 A 的 特征 向 量 相同 ， 且 下 的 特征 值 为 
N= t+7)-(1-7y)ozil 
(注意 对 于 对 称 矩 阵 A 而 言 ， 由 于 Y. aH A; 均 为 实数 ， 所 以 也 是 实数 ,) 为 了 使 A” 为 
数 ， 必 需 有 
lath 2vy 或 l(12-0- yoal«2/y 
当 y=1 时 ,不 等 式 两 边 均 为 2。 不 等 式 右 端 作为 y 的 函数 ,在 入 = 1 的 斜率 为 1。 不 等 式 左 
端的 函数 的 斜率 为 1 + ai。 由 于 赫 森 矩阵 的 特征 值 在 函数 有 一 个 强 极 小 点 时 将 是 正 实数 ， 且 
学 习 速度 为 正 数 ， 此 斜率 必 大 于 1。 这 说 明 当 入 足够 接近 于 1 时 该 不 等 式 总 是 成 立 。 
作为 结论 ， 我 们 证 明了 如 果 将 动量 项 加 到 二 次 函数 的 最 速 下 降 算法 中 ， 则 总 有 一 个 动量 
系数 将 使 整个 算法 稳定 ， 而 不 管 学 习 速度 如 何 。 另 外 证 明了 如 果 入 趋 近 于 1， 则 W 的 特征 值 
的 模 为 /Y。 可 以 证 明 [ Brog91] 特 征 值 的 模 决定 了 算法 的 收敛 速度 。 模 越 小 ， 收 敛 速度 越 快 。 
当 模 趋 近 于 1 时 ， 收 敛 时 间 加 快 。 
可 以 用 图 9-3 的 例子 来 说 明 这 些 结果 。 在 那里 证 明了 当 学 习 速 度 a> 0.4 时， 最 速 下 降 法 
对 函数 F(x) = x? + 25x2 是 不 稳定 的 。 在 图 12-21 中 可 以 看 到 当 a=0.041，Y= 0.2 时 具有 动量 
[1237] 项 的 最 速 下 降 法 轨迹 。 将 这 个 轨迹 与 图 9-3( 它 有 相同 的 学 习 速 度 ， 但 没有 动量 项 ) 比 较 。 


1 
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图 12-21 «20.041 Al y 20.2 时 的 轨迹 
P12.3 对 下 述 函数 执行 3 次 可 变 学 习 速 度 算法 的 迭代 : 


F(x) = x+25x5 


(该 函数 取 自 第 9 章 9.2.1 节 中 “稳定 的 学 习 速度 ”的 例子 ) 初始 值 为 


算法 的 参数 为 
020.05, y=0.2, q- L5, pe 0.5, €= 5% 


解 
第 1 步 是 计算 初始 点 的 函 权 值 : 
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1 0.5 
Poo = 和 | so | = 305 o.s]]^ niles | = 6.5 

下 一 步 是 求 梯度 

9 

34, 79 [2s | 

VF(x) E 2 = 

Ja 50x2 

如 果 计 算 初 始点 的 梯度 ， 则 有 12-38 
1 
go = VPC) es = 四 


在 初始 学 习 速度 为 = 0.05 时 ， 算 法 的 第 一 步 尝试 为 
0 ^| 


Ax, = vix, = (1 = Yago 02] | - 0.80.09] > | = | 





, 0.5 - 0.04 0.46 
xi = Xo + oí s -1 | 7l-0.5 


为 验证 这 一 步 的 有 效 性 ， 计 算 在 这 个 新 点 的 函 权 值 ; 


1 46 | _ 
F(xD = D T ° |x = = [0.46 - 0.s]|? MIB - 6.4616 


EDF F(m)。 因 此 ， 这 一 试验 步 被 接受 ， 而 且 学 习 速 度 增加 ; 


， [0.46 
x» 75 51.0.5 


算法 第 二 步 试验 的 计算 为 ; 


- 0.04 
Ax, = YAx - (1- Y)ag, = 0.2| n | - 0.8(0. 075)| 


| Fox) = 6.4616 fll a = ma = 1.5(0.05) = 0.075 


Mell aa ] 


1.3 


SHIT 


Bem tan = [^s 1.3 0.8 


计算 这 一 点 的 函 权 值 : 








0 0.3968 
F(xi) - (xs)? 0 50 xi = = ito. 3968 0. sl? 2] s | z 16.157 
由 于 它 比 F(xi) 大 5%， 放 弃 这 一 步 ， 减 少 学 习 速 度 ， eres 0, 
x = x, F(x) = F(x) = 6.4616, oa = pa = 0.5(0.075) = 0.0375, Y 20 12-39 


现在 试验 新 一 步 的 计算 (动量 为 0); 


0.92 - 0.0345 
AX; =- ag, =- (0.0375) 95 = 


0.9375 
x | 0.46 | [= 0:0385 ] [2-855] 
X -XX-*B3G7| osl l| 0.9375 | 10.4375 
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ty dun? 9|. 1 2 0 ||0.4255 | _ 
F(xi) = z 09) f 50 X3 = z [0.4255 0.4375] 0 50 lÍ 0.4375 | = 4.966 


它 小 于 F(%)。 因 此 这 一 步 被 接受 ， 动 量 系 数 恢 复 到 初始 值 ， 且 学 习 速度 增加 。 
X% =x, Y=0.2, a= qa = 1.5(0.0375) = 0.05625 
这 就 完成 了 第 3 次 迭代 。 
P12.4 回忆 第 9 章 中 用 以 说 明 共 固 梯 度 算法 的 例子 见 (9.2.3 4): 


F(x) = yrf? |x 


1 2 
初始 点 为 
0.8 
Yo |. oos] 
DUGJEUE PS BERI I KER. FRERE PARATA EK Em, HRS 
割 搜索 算法 进行 区 间 缩 小 。 
解 
函数 的 梯度 为 
241 X2 
VF(x) = l. + 2x2 | 
FH PIENE, SA RA MR RMR A: 
-1.3 
Po = - 8o =- VF(x)"lx=x, = | » 5 


TERR —UORI UP, EUR PXRBAUIME F(x): 


0.8 - 1.35 
X; = X + apo = _ 0.25 + a9 


- 0.3 
第 1 步 是 区 间 定 位 。 假 设 初 始 步 长 s= 0.07$。 区 间 定 位 过 程 如 下 ; 
F(al) = r| 0.8 | = 0.5025 
ar = “\b 0.251) ^ ^ 


0.8 - 1.35 
b =e = 0.075, F(b) = r| | + 0.075] |) = 0.3721 
- 0.25 - 0.3 


by = 2€ = 0.15, F(b») [| os] 0.15) -3 |) = 0-2678 
25E 5 FN 0.25) $ "1-0631]^ 


- 1.35 
+ 0.3 z 0.1373 


0.8 
b4 = 4e = 0.3, F(b4) 2F -0.3 


- 0.25 





b, = 8e = 0.6, F(b4) " os o| |] 0.1893 
4 = ue’ 47 ANE 0.25) ^ 1 -o031/^ ^ 


由 于 函数 在 连续 两 次 计 值 之 间 递 增 ， 所 以 我 们 知道 极 小 值 在 L0.15 0.6j 区 间 内 。 该 过 
程 由 图 12-22 中 的 小 圆圈 表示 ， 最 后 的 区 间 由 大 的 圆圈 表示 。 
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下 一 步 线性 极 小 化 是 用 黄金 分 割 搜索 算法 进行 区 间 缩 小 。 过 程 如 下 ， 
cı = aj +(1-r)(b; - a4) = 0.15 + (0.382)(0.6 - 0.15) = 0.3219 
di = 6, -(1-1)(b, — aj) = 0.6- (0.382)(0.6 — 0.15) = 0.4281 
F, = 0.2678, F, = 0.1893, e = 0.1270, 
由 于 Fo» Fi, RITA 








F; = 0.1085 

















[12-41] 
az = cı = 0.3219, b; = b = 0.6, cy = d, = 0.4281 
dj; = b - (1 -1)( 62 — a5) = 0.6 — (0.382)(0.6 — 0.3219) = 0.4938 
F, = F, = 0.1270, F, = Fy = 0.1085, Fy = F(dz) = 0.1232 
此 时 已 < Ff， 因此 
a3 = a = 0.3219, b, = dz = 0.4938, d3 = c; = 0.4281 
c3 = a3 + (1 — t)(b3 — a3) = 0.3219 + (0.382)(0.4038 — 0.3219) = 0.3876 
F, = Fa = 0.1232, Fy = F, = 0.1085, F, = F(c3) = 0.1094 
该 过 程 继 续 直 至 br,- ar< tolo Fl 12-22 中 的 小 黑 点 表示 每 次 选 代 过 程 的 一 个 新 内 
部 点 的 位 置 。 最 后 的 点 由 大 黑 点 表示 。 将 结果 与 图 9-10 中 显示 的 第 一 次 迭代 结果 比较 。 
图 12-22 线性 极 小 化 的 例子 
P12.5 为 说 明 Levenberg- Marquardt 方法 中 雅 可 比 矩 阵 的 计算 过 程 ， 考虑 使 用 图 12-23 
中 求解 函数 逼近 的 网 络 。 选 择 的 网 络 传输 函数 为 
fi(n) = (n, f(n)-n 
它们 的 导数 分 别 为 [1242 
输入 第 一 层 第 二 层 
NAN fC N 
p Wh n a, Wh, nu a? 
bi, B, 
1 l 
WDR, ~ / 
ai = f(wipbi) a? = f2(w2a'+b?) 


图 12-23 ”说明 LMBP 的 两 层 网 络 
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fn) - 2n, fn) = | 
假设 训练 集 包括 
(p, = (1D,€& = ODi, Mp, = [22, (6 = (21 
参数 被 初始 化 为 
W'z[1], b = [0], Wz[2], b' = (1] 
计算 Levenberg-Marquardt 方法 中 第 一 步 的 雅 可 比 和 矩阵 。 
解 
第 1 步 是 在 网 络 中 传播 输入 并 计算 误差 
aj = pi = [1] 
n| = Wa] « b! = [1][1] + [0] = [1],al = f'én) = (1D? = [1] 
nj = Wal + b? = ([21[1] + [1D = [3],a?f = P$) = (3D = [3] 
e = (ti - a) = ([1] -(3) = [- 2] 
a = p, = [2] 
nj = Wa} « b! = [1][2] + [0] = (21,8) = f'(m) = ([2])? = [4] 
ny = Wa +b? = ([2][4] + [1]) = [9], = (nj) = ([9]) = [9] 
Ta] e = (t;- at) = ([2] - [9])=[-7] 
第 2 步 是 用 式 (12.46) 和 (12.47) 初 始 化 并 反 向 传播 Marquardt 敏感 度 。 
Si --FE(n)--í(1] 
Š! = 有 (ni)(W2)7S = 2214121 EC- 1] = [2(1)][2][-1] = [- 41 
$ =-F(m) =- [1] 
$ = FD)(W)’S = -2n9.2][21[- 1] = [2(2)][2][- 1] = [- 8] 


8 - sig] -[-4 8]. EE -[-1 -1 





现在 用 式 (12.43)，(12.44) 和 (12.37) 计 算 雅 可 比 和 矩阵 。 

















9v; av, Avy vı 9e Fei, Oe! Pen 
(x) Ox, Ox? 9x3 Ox, 9w1,1 abi awi, abi 
Hx = 9v; 92v; Iv, 93v; | | Pern Zeiz 9el2 ez 
Ox, Ox, Ox; Ox, dwi, 3b! awit, 3 好 
avy Jey 9e1,1 Inj ~] Inia ~l 0 
= 二 一 = oL SX 7 = S11 xX @ 
[Jia dx, ^ awl, ^ ani, 9wl, LX gl) 1,1 1,1 
= (-4)0 =-4 
9vi dej, Je; Ini 1 ani =] 
= = = = 2 = § x =$ = 一 人 
[J]. 9x; 3b! nl, X 3b! 1,1 ab} 11 
9v, dei, Int 2 Int ~2 
= = te = 57, XD -3$1,Xà = (-1)(1) =-1 
[J]: 3 9x; ^ anl, x aw? 31,1 Jw? , 1,1 11 
av 2e; anja -2 ani, 2 
i i = = 2 = — = =-1 
11244; (Jl. 9x, = and; x 3b 37,1 X ab S11 
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Ava dein ani, -1 Ini,2 ~] 
[J] = ax, 7 Jn! x Jw! = $1.2 X Jw! = 3). x ai. = (- 8)(2) =- 16 
9v; ey; Oe; Aniz 4 anja i 
[J] = Ixa = 3b! = Inl, x ab! = 51,2 X ab! = $12 二 一 8 
- dv Je an? In? 
r 7 2 _ n2. 2"12 — 22 12 _ 1 (TY 
[3535 = 9x, 7 dni, 81, 12 ™ Jw? = $31.2 x Gj. = (- 1D)(4) =-4 
àv? Je,» Jey. Ani.» 2 ania -2 
[Jla = 9 x4 = ap = an} ， x ab? = 81,2 x ab? = Sj? =- ] 
所 以 雅 可 比 矩 阵 为 
-4 -4 -1 -1 
x = 
X») -16 -8 -4 -i 12-45 
12.5 结束语 
基本 BP 算法 (最 速 下 降 BP 算法 一 一 SDBP) 的 一 个 主要 问题 是 训练 时 间 长 。 对 于 某 些 问 


题 SDBP 在 大 型 机 上 也 要 花费 数 星期 进行 训练 ， 因 此 并 不 适合 于 实际 问题 。 由 于 BP 算法 是 
最 先 流行 的 算法 ， 所 以 有 许多 提高 算法 收敛 性 能 的 改进 。 本 章 中 讨论 了 SDBP 算法 收敛 速度 
慢 的 原因 ， 并 介绍 了 几 种 提高 算法 性 能 的 技术 。 

加 速 收敛 的 技术 分 成 两 类 : 启发 式 方法 和 标准 的 数值 优化 方法 。 我 们 讨论 了 两 种 启发 式 
方法 : 动量 方法 (MOBP) 和 和 改变 学 习 速 度 方法 (VLBP)。MOBP 易于 实现 , 并 可 以 用 批 处 理 
或 增 量 处 理 模 式 ， 并 且 它 的 速度 明显 快 于 SDBP。 它 需要 选择 动量 系数 , 但 y 的 取 值 范围 限 
于 [0，1] 内 ， 并 且 算 法 对 它 的 选择 并 不 敏感 。 

VLBP 方 法 比 MOBP 快 ， 但 只 能 用 批 处 理 方式 。 所 以 ， 它 需要 更 多 的 存储 空间 。VLBP 
需要 选择 5 个 参数 ， 算 法 是 相当 和 鲁 棒 的 ， 但 参数 的 选择 能 影响 收敛 速度 ， 并 且 是 与 实际 问题 
相关 的 。 

另外 还 介绍 了 两 种 标准 的 数值 优化 技术 : HIREA ( CCBP) A Levenberg-Marquardt 方 
法 (LMBP)。CGCBP 一 般 快 于 VLBP。 这 是 一 种 批 处 理 方法 ， 在 每 次 迭代 时 要 进行 线性 搜索 ， 
但 它 的 存储 需求 与 VLBP 相仿 。 共 恩 梯 度 法 还 有 许多 用 于 神经 网 络 应 用 的 变化 ， 我 们 只 介 
绍 了 一 种 。 

即使 LMBP 在 每 次 迭代 的 时 候 都 要 求 矩 阵 的 逆 ， 它 还 是 所 讨论 过 的 中 等 规 友 的 多 层 神 经 网 
络 训练 算法 中 最 快 的 一 种 。 它 需要 选择 两 个 参数 ， 但 算法 对 参数 的 选择 关 并 不 敏感 。LMBP 的 
主要 缺点 是 存储 需求 大 ， 需 要 求 JJ 和 矩阵 的 着 ， 而 该 矩阵 是 n x n 的 ， 其 中 n 是 网 络 中 权 值 和 
偏 置 值 的 总 数 。 如 果 神 经 网 络 中 的 参数 多 于 几 千 个 ，LMBP 在 当前 机 器 上 就 无 法 实现 。 

BP 算法 还 有 许多 其 他 变型 ， 本 章 都 没有 讨论 到 。 关 于 其 他 技术 的 某 些 参考 文献 在 第 19 


章 给 出 。 
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ties," Neural Networks, vol. 3, no. 5, pp. 561 — 573, 1990. 
这 篇 文章 展示 了 一 种 具有 不 同学 习 速 度 的 BPOREGE, HPPA NSS 
速度 。 


[VoMa88] T. P. Vogl, J. K. Mangis, A. K. Zigler, W.T. Zink and D. L. Alkon, “Accelerat- 


ing the convergence of the backpropagation method," Biological Cybernetics., vol. 59, 
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这 是 首先 引 和 启发 式 技术 来 加 速 BP 算法 收敛 速度 的 文章 之 一 。 文 中 包含 对 批 处 
理 、 动 量 和 可 变 学 习 速 度 的 讨论 。 

习题 
E12.1 要 训练 图 12-24 中 的 网 络 ， 训 练 集 为 
fp = [-2]),( = [0.8D], (p, = [20.(6 = (1)! 
其 中 每 对 的 出 现 是 等 可 能 的 。 
写 一 个 MATLAB 的 M- 文 件 画 出 均 方 误差 性 能 指数 的 轮廓 线 图 。 


输入 Log-Sigmoid 层 


rete oe 
b 
1 


VL N 
a = logsig(wp+b) 


Æ 12-24 习题 E12.1 的 网 络 


E12.2 用 批 处 理 模式 和 非 批 处 理 模 式 计 算 习 题 E12.1 所 述 问 题 的 初始 步 的 方向 ， 说 明 
批 处 理 模式 的 作用 ， 初 始 条 件 为 
w(0) = 0, 5(0) = 0.5 
E12.3 回忆 例题 P9.1 中 的 二 次 函数 
10 -6 
-6 10 
用 带动 量 的 最 速 下 降 法 求 该 函数 极 小 点 。 
(i) 假设 学 习 速度 a。= 0.2。 求 能 使 算法 稳定 的 动量 系数 Y( 用 例题 P12.2 中 的 思 
想 )。 
(ii) 假设 学 习 速 度 ，a = 20。 求 能 使 算法 稳定 的 动量 系数 Yo 
(iii) S — MATLAB 程序 ， 在 FGOSEBSZRES E iii d G) (这 两 种 学 习 速 度 和 动 
量 系数 的 算法 轨迹 ， 初 始 值 为 


F(x) = 了 |x +[4 4]x 


12-49) 
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-1 
% = | ,| 
E12.4 对 习题 E12.3 的 函数 ， 执 行 3 次 可 变 学 习 速 度 算法 的 迭代 过 程 ， 初 始 值 为 


-| 
^ -[.2.5 
在 F(x) 的 轮 廊 线 图 上 画 出 算法 轨迹 。 算 法 的 参数 为 a=0.4, Y=0.1, 7=1.5， 


p=0.5, £2 596. 
E12.5 对 习题 E12.3 的 函数 ， 执 行 一 次 共 扼 梯度 法 的 选 代 过 程 ， 初 始 值 为 


| 


在 线性 优化 中 ， 对 区 间 定 位 用 函数 求 值 法 ， 对 区 间 缩 小 用 黄金 分 割 搜索 法 。 在 
F(x) 轮 廓 线 图 上 画 出 搜索 路 径 。 
E12.6 用 图 12-25 的 网 络 逼 近 函 数 
gp) - 1+ sin( £5), -2<p<2 


初始 网 络 参数 选 为 
_[-0.27 | -| -2 -| 0.09 | -| 
w(0) = ino , b(0)z onl w(0) = _017|， p = 0.13 
试用 在 p =0 和 p = ! 的 函数 g(P ) 建 立 训练 集 。 计 算 LMBP 算法 中 第 一 步 的 雅 
[12-51] 可 比 和 矩阵 。( 一 些 需要 的 信息 在 11.2.3 节 的 例子 中 。) 
输入 Log-sigmoid 层 线性 层 





a! = logsig(W'p- b!) a? = purelin (W2a! +b?) 


图 12-25 “习题 E12.6 的 网 络 
E12.7 对 一 线性 网 络 ， 证 明 当 p=0 时 LMBP 算 法 在 一 次 迭代 内 将 收敛 到 最 优 解 。 
E12.8 在 习题 E11.11 中 你 已 用 MATLAB 编写 了 图 12-25 的 1-2-1 网 络 的 SDBP 训练 算 
%, FAR AVIA TH wR 
g(p) = Lesin( £5), -2« p «2 
重 做 上 述 习题 ， 改 进 你 的 程序 以 实现 本 章 讨 论 过 的 算法 : 批 处 理 模式 的 SDBP, 
MOBP, VLBP, CGBP 和 LMBP。 比 较 不 同 算法 的 收敛 法 果 。 
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第 13 章 联想 学 习 


13.1 目的 


前 面 所 讨论 的 神经 网 络 (第 4,7,10 ~ 12 章 ) 都 是 在 监督 模式 下 训练 的 。 每 个 网 络 需要 一 
个 目标 信号 来 定义 正确 的 网 络 行为 。 

相反 地 ， 本 章 中 介绍 的 一 组 简单 规则 允许 无 监督 学 习 ， 这 使 网 络 具 有 在 经 常 一 同 出 现 的 
模式 之 间 学 习 其 中 关联 的 能 力 。 一 旦 学 习 成 功 ， 关 联 能 力 将 使 网 络 能 执行 有 用 的 任务 ， 如 模 
式 识 别 和 回忆 。 

尽管 本 章 中 的 规则 很 简单 ， 但 它们 是 构成 第 14 ~ 16 章 中 强大 神经 网 络 的 基础 。 


13.2 理论 和 实例 


本 章 是 讨论 联想 的 : 联想 是 怎样 在 网 络 中 表示 的 ? 网 络 怎样 学 习 新 的 联想 ? 

刺激 /响应 ”什么 是 联想 ? 联想 是 指 系统 中 输入 和 输出 之 间 的 任何 联系 ， 其 中 当 模 式 A 
输入 到 系统 时 ， 将 产生 模式 B 的 反应 。 当 两 个 模式 关联 时 ， 输 入 模式 被 称 为 刺激 (stimlus)。 
类 似 地 ， 输 出 模式 被 称 为 响应 (response)。 

关联 是 很 基本 的 概念 ， 并 构成 了 行为 心理 学 派 的 基础 。 这 个 心理 学 的 分 支 ， 试 图 利用 联 
想 和 学 习 联 想 规 则 解释 动物 和 人 类 的 各 种 形 为 。 

最 早 的 形 为 心理 学 派 的 影响 之 一 是 巴 甫 洛 夫 的 经 典 实验 ， 他 利用 喂食 时 扬 铃 训练 狗 对 铃 
声 的 反应 ， 这 是 一 个 现在 称 为 典型 条 件 反 射 的 例子 。B. F. Skimer 是 最 具 影 响 的 形 为 心理 学 
派 的 支持 者 之 一 。 他 的 经 典 实 验 包 括 训练 老鼠 按 下 一 根 棒 以 获得 食物 如 ， 这 是 一 个 用 仪器 作 
为 条 件 的 例子 。 

为 了 提供 这 些 行为 的 生物 学 解释 ，Donald Hebb 提出 了 他 的 假设 (如 在 第 7 章 所 引用 的 ) 
( Hebb49]: 

“ 当 细 胞 A 的 轴 突 触 到 细胞 B 的 距离 近 到 足够 激励 它 ， 且 反复 地 或 持续 地 刺激 B, MA 
在 这 两 个 细胞 或 一 个 细胞 中 会 发 生 某 种 增长 过 程 或 代谢 作用 ， 增 加 A 对 细胞 了 的 刺激 效 
Ro” 

第 7 章 中 我 们 分 析 了 基于 Hebb 律 的 有 监督 学 习 的 性 能 。 本 章 我 们 将 讨论 无 监督 的 Hebb 
学 习 以 及 其 他 相关 的 联想 学 习 规则 。 有 许多 学 者 对 联想 学 习 的 发 展 作出 了 贡献 ， 特 别 是 
Tuevo Kohonen, James Anderson 和 Stephen Grossberg 都 非常 有 影响 。Anderson 和 Kohonen 
在 20 世纪 60 年 代 未 和 70 年 代 初 独立 地 提出 了 线性 联想 器 网 络 ([Ande72]，[Koho72])。 
Grossberg 同时 引入 了 非 线 性 连续 联想 网 络 ([ Gross68]) ， 这 些 学 者 与 其 他 许多 学 者 一 起 持续 
推动 联想 学 习 的 发 展 直至 今天 。 

本 章 中 我 们 将 讨论 一 些 基本 的 联想 学 习 规 则 。 接 着 在 第 14 ~ 16 章 ， 要 介绍 一 些 将 联想 
学 习作 为 基本 部 件 的 复杂 网 络 。 第 14 章 讲述 Kohonen Wig, $ 15 章 和 第 16 章 将 讨论 
Grossberg 网 络 。 
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输入 宣 极 限 神 经 元 
13.2.1 简单 联想 网 络 CN (7 
让 我 们 看 一 看 可 以 实现 一 个 联想 的 最 简单 的 网 络 。 s” [ n a 
一 个 单 输 入 硬 极限 神经 元 如 图 13-1 所 示 。 P Lp L 
神经 元 的 输出 a 由 输入 p 按 下 式 决定 ; | 
a = hardlim (wp + b) = hardlim (wp - 0.5) AJ dlo 
(13.1) a = hardlim(wp+b) 
为 简化 起 见 ， 这 里 限制 p 的 值 为 1 或 0， 以 表示 
是 否 有 刺激 。 注 意 到 由 于 使 用 硬 极限 函数 ，a 被 限定 


为 同样 的 值 。 它 表明 网 络 是 否 有 响应 。 
1, 有 刺激 -人 


P = Lo, eH 0 ,无 响应 

有 刺激 p = 1 和 有 响应 a = 1 之 间 的 联想 是 由 w 的 值 决定 的 。 仅 当 w 大 于 - 5( 此 例 为 
0.5) 时 ， 网 络 对 刺激 将 有 响应 。 

本 章 讨论 的 学 习 规 则 一 般 在 大 型 网 络 的 框架 中 使 用 ， 如 第 14 ~ 16 EATER AR. WH 
了 避免 使 用 复杂 网 络 来 说 明 联 想 学 习 规 则 的 操作 ， 我 们 将 使 用 有 两 类 和 输 人 类 型 的 简单 网 络 。 

无 条 件 刺 激 条件 刺 激 ”一 类 输入 集 称 为 无 条 件 刺 激 ， 这 类 似 于 巴 甫 洛 夫 实验 中 给 狗 的 
食物 。 另 一 类 输 人 集 称 为 条 件 刺 激 ， 类 似 于 巴 甫 洛 夫 实验 中 的 铃声 。 一 开始 狗 只 在 有 食物 时 
才 分 泌 唾 液 ， 这 是 一 种 无 需 学 习 的 先天 的 特征 。 然 而 当 铃 声 与 食物 重复 地 同时 出 现时 ， 狗 会 
在 仅 有 铃声 的 条 件 下 分 泥 唾液 ， 而 不 论 是 否 有 食物 。 

我 们 用 p? 表示 无 条 件 刺激 ， 用 p 表示 条 件 刺 激 。 首 先 假设 关于 p 的 权 值 固定 , 但 与 p 
有 关 的 权 值 根据 相关 的 学 习 规则 改变 。 

13-2 表示 一 个 识别 在 共 的 例子 。 网 络 中 有 无 条 件 刺激 ( 香 故 的 形象 ) 和 有 条 件 刺激 ( 香 
蕉 的 气味 ) 。 这 并 不 是 瞳 示 嗅 觉 比 视觉 更 有 条 件 性 。 本 章 的 例子 中 对 条 件 刺 激 和 无 条 件 刺激 
的 选择 是 任意 的 ， 只 是 用 以 说 明 学 习 规则 的 性 能 。 我 们 在 下 节 中 将 用 这 个 网 络 显示 Hebb 规 
则 的 操作 过 程 。 


图 13-1 单 输入 硬 极限 联想 器 


(13.2) 


输入 硬 极 限 神经 元 





a = hardlim(w?po-- wp +b) 
图 13-2 AR EK AG d 


该 网 络 中 有 条 件 和 无 条 件 输入 的 定义 为 : 
o [RS 7 [ U (13.3) 
POT (0, 不 检测 形状 PT lo RRIA 
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此 时 我 们 希望 网 络 用 指明 水 果 是 香蕉 的 响应 将 香 莹 的 形状 关联 ， 
而 不 是 气味 (请 见 图 13-3)。 这 可 以 将 大 于 - b HERS w 和 将 
小 于 -b HERF w 来 解决 这 一 问题 。 下 述 值 满足 这 些 要 求 : 


w r=1, w=0 (13.4) 
香 葵 联想 器 的 输入 /输出 函数 现 简化 为 
a = hardlim( p° — 0.5) (13.5) 


ATLL, Bf USERS (po = 1) 产 生 响 应 ， 而 不 论 是 否 闻 到 
FARAR p = 1 或 p=0)。 
在 下 一 节 中 我 们 用 这 个 网 络 说 明 一 些 联想 学 习 规 则 的 性 能 。 


13.2.2 无 监督 的 Hebb 规则 


对 简单 问题 设计 具有 固定 联想 集 的 网 络 并 不 困难 ， 但 有 用 的 网 络 必须 能 学 习 联 想 关系 。 

那么 要 在 何 时 学 习 联想 ?一般 来 说 ， 当 几 个 事件 同时 发 生 的 时 候 人 和 动物 倾向 于 将 它们 
联系 起 来 。Hebb 规则 表 认 为 ， 当 香 葵 的 气味 刺激 与 香 葵 概念 响应 (由 其 他 刺激 引起 ， 如 香 共 
形状 ) 同 时 产生 的 时 候 ， 网 络 将 加 强 它 们 之 间 的 联系 。 以 后 ， 当 只 有 香蕉 气味 刺激 时 也 能 产 
生 香蕉 概念 的 响应 。 . 

无 监督 Hebb 规则 将 根据 神经 元 的 输入 p 和 输出 a; 与 它们 的 乘积 之 间 的 比例 增加 权 值 w: 

w, j0) = wi(q ~ 1)+aa(g)p(g) (13.6) 
(也 可 参见 式 (7.5)。) 学 习 速度 。 决定 着 联想 关系 建立 前 刺激 和 响应 同时 发 生 的 次 数 。 在 图 
13-2 的 网 络 中 ， 当 w> -b=0.5 时 联想 关系 建立 ， 因 为 此 时 p =1 会 产生 响应 a = 1 而 不 论 
p 的 值 是 多 少 。 

ABS) ”注意 到 式 (3.6) 中 只 用 到 了 包含 被 更 新 权 值 的 层 的 信号 。 满 足 这 个 条 件 规则 
被 称 为 局 部 学 习 规 则 。 这 与 BP 算法 不 同 ,例如 BP 算法 中 要 将 敏感 度 从 最 后 一 层 反 向 传播 
本 章 中 介绍 的 规则 都 是 局 部 学 习 规则 。 

无 监督 的 Hebb 规则 也 可 以 写成 向 量 形式 : 

W(g) = W(q - D + oa( g)p'(q) (13.7) 
训练 序列 ”对 所 有 的 无 监督 规则 ， 学 习 是 由 对 一 个 按时 间 的 输入 序列 (训练 序列 ) 的 响应 


RER: 
pil), p(2, --, p(Q) (13.8) 
GER: 使 用 记号 p DIE p, 是 为 了 强调 输入 的 时 序 性 质 。) 在 每 次 迭代 中 ， 根 据 对 输入 p 
的 响应 计算 输出 a， 接 着 权 值 W 根据 Hebb 规则 更 新 。 
让 我 们 将 无 监督 Hebb 规则 应 用 于 香蕉 联想 器 。 联 想 器 的 初始 权 值 由 前 下 的 例子 给 定 ， 
所 以 它 最 初 对 形状 响应 ， 而 不 响应 气味 。 
w? = 1,w(0) = 0 (13.9) 
联想 器 重复 地 受到 香蕉 的 作用 。 然 而 网 络 的 气味 传感器 很 可 靠 ， 形 状 传 感 故 却 只 间断 地 
工作 (在 偶数 步 )。 所 以 ， 训 练 序列 将 重复 下 述 两 组 输入 ， 
ig) =0，p() =1}, dip 2021, p(2) = lle (13.10) 
第 一 个 权 值 w?( 表 示 无 条 件 刺 激 pl 的 权 值 ) 保 持 为 常数 ， 而 w 在 每 次 迭代 时 ， 根 据 无 
监督 Hebb 规则 更 新 ， 其 中 学 习 速 度 为 1。 





图 13-3 








13-4 








13-5 
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w(q) = w(q-1) + a(q)p(q) (13.11) 
第 一 次 迭代 (gq = 1) 的 输出 为 
a(1) x hardlim( w9 p9(1)  w(0) p(1) - 0.5) 
= hardlim(1x 0 «0x1-0.5) = 0 (无 响应 ) 
单独 的 气味 并 不 产生 响应 。 无 响应 时 ，Hebb 规则 并 不 改变 wo 
w(1) = w(0)+a(l)p(l)=0+0x1=0 (13.13) 
第 二 次 欠 代 时 ， 香 蕉 的 形状 和 气味 都 被 检测 到 ， 网 络 的 响应 如 下 : 
a(2) = hardlim( w9p*(2) + w(1) p(2) -0.5) 


(13.12) 


= hardlim( x | 40x 150.5) = 1. (FÆ) (13.14) 
因为 气味 刺激 和 响应 同时 发 生 ，Hebb 规则 将 增加 它们 之 间 的 权 值 。 
w(2) = w(D + a(2)p(2) =0+1xl=1 (13.15) 
FAKES, HUETSSUSSBRACKQU, PARRY. WN OPA T SRA RATE 89 
反应 之 间 的 有 用 联想 。 
a(3) = hardlim( wip'(3) + w(2)p(3) - 0.5) (13.16) 


= hardlim(1x0+1x1-0.5)=1 GEAR) 
w(3) = w(2) +a(3)p(3) = 1+1xl=2 (13.17) 
此 时 ， 网 络 已 能 对 香 芍 的 形状 和 气味 的 检测 都 作出 响应 。 甚 至 在 一 个 检测 系统 出 现 故障 
的 时 候 ， 网 络 在 大 部 分 也 能 正常 工作 。 
试验 无 监督 的 Hebb 规则 请 用 the Neural Network Design Demonstration Unsuper- 
vised Hebb Rule ( nnd13uh) 。 





我 们 看 到 Hebb 规则 能 学 习 有 用 的 联想 。 然 而 式 (13.6) 中 定义 的 Hebb 规则 有 一 些 缺 点 。 
首先 ， 当 我 们 在 上 例 中 连续 地 提交 输入 并 更 新 w 时 ， 权 值 w 将 趋 于 无 限 大 ， 这 与 导出 
Hebb 规则 的 生物 系统 矛盾 。 突 触 不 能 无 限制 地 增 大 。 

第 二 个 问题 是 没有 机 制 使 权 值 递 减 。 如 果 Hebb 网 络 的 输入 或 输出 有 曲 声 ， 每 次 权 值 都 
会 增加 (但 是 很 缓慢 ) ， 直 至 最 后 网 络 对 任何 刺激 都 作出 响应 。 

AP Xo) Hebb 规则 

衰减 速度 ”改进 Hebb 规则 的 一 种 方法 是 加 入 权 值 的 衰减 项 ( 式 (7.45)): 

W(g)= W(q-1) + oa( q)p/ (q) - YW(q - 1) 
= (1-W(q- 1) +aalq)p (q) 
其 中 为 衰减 速度 ， 是 一 个 小 于 1 的 正 数 。 当 y 趋 近 于 0 时 ， 学 习 规 则 就 变 成 了 标准 规则 。 
4 y CRF 1 时 ， 学 习 只 能 记 住 当 前 的 模式 而 很 快意 了 前 面 的 输入 。 这 保证 权 值 撼 阵 无 界 地 
增加 。( 过 滤 权 值 改 变 的 思想 在 第 12 章 中 已 讨论 过 ， 在 那里 称 为 动量 。) 

最 大 权 值 w3“ 由 y 决定 。 在 式 (13.18) 的 标量 形式 中 ,对 所 有 9 将 w Mp, 都 设 为 1( 最 

大 化 学 习 )， 然 后 求解 稳 态 权 值 (此 时 ， 新 旧 权 值 相同 )， 就 可 以 求 出 这 个 最 大 权 值 。 


Wi = (1- y) Wi; 十 adip; 


(13.18) 


wi =(1-y)w;+a (13.19) 


A 
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TE FRAT ee ER A EIR) Hebb 规则 。 设 衰减 率 y 为 0.1。 第 一 次 
迭代 只 有 气味 刺激 ， 结 果 与 前 面相 同 : 
a(1) = 0( 无 响应 )， w(1)z0 (13.20) 
第 二 次 迭代 也 有 相同 的 结果 ， 此 时 两 种 刺激 都 产生 了 ， 并 且 网 络 对 形状 刺激 产生 响应 。 
此 时 气味 刺激 和 响应 的 同时 出 现 产 生 了 新 的 联想 ; 
a(2) = (FÆ), w(2) = 1 (13.21) 
第 三 次 迭代 的 情况 有 所 不 同 。 网 络 已 经 学 习 了 对 气味 的 响应 ， 权 值 也 持续 增加 。 然 而 ， 
这 次 权 值 的 增加 仅 为 0.9 而 非 1.0。 
w(3) = w(2) +a(3)p(3) -0.1 w(2) =1+1x1l1-0.1xl=1.9 (13.22) 
由 于 训 减 项 限制 权 值 的 值 ， 使 得 无 论 怎样 多 次 强制 联想 ，w 也 不 会 超过 wo 


max _ a _ d. _ 
wht = = 57 = 10 (13.23) 


新 规则 也 保证 网 络 已 学 习 的 联想 不 会 成 为 人 为 的 噪声 。 任 何 小 的 随机 增加 将 很 快 地 衰减 掉 。 
图 13-4 BART RRA, ARRAY Hebb 规则 的 响应 。 在 无 衰减 时 ， 权 
值 以 神经 元 每 次 激活 时 同样 的 值 连续 增加 。 当 增加 豪 减 后 ， 其 权 值 以 指数 方式 逼近 最 大 值 
( wg - 10). 
试验 带 衰 减 的 Hebb 规则 请 用 Neural Network Design Demonstration Hebb with 
Decay (nnd13hd)4e Effect of Decay Rate (nndl3edr)。 








Hebb 规 则 4 











图 13-4 带 衰减 的 和 不 带 衰减 的 Hebb 规则 的 响应 


带 衰减 的 Hebb 规则 解决 了 大 权 值 的 问题 ， 然 而 这 是 有 代价 的 。 环 境 必须 考虑 到 有 时 会 
出 现 具有 联想 的 所 有 刺激 ， 否 则 的 话 ， 联 想 将 衰减 。 
为 了 说 明 这 种 情况 ， 考 虑 a; =0 时 的 式 (13.18): 
wi(g) = (1- Y) wig - 1) (13.24) 
mR y=0.1, EH 
wi(q) = (0.9) wij(q - 1) (13.25) 
因此 wy 在 每 次 ci = 0 时 将 减少 10%。 任 何 已 学 习 的 联想 ， 最 终 将 丢失 。 我 们 在 下 节 中 将 讨 
论 这 个 问题 的 一 种 解决 方案 。 


13-8 
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13.2.3 简单 的 识别 网 络 


instar 前 面 我 们 讨论 的 仅 限于 标量 输入 /输出 之 间 的 联想 。 这 里 将 检验 有 向 量 输入 的 神经 
元 ( 见 图 13-5)。 这 个 神经 元 有 时 被 称 为 instar， 是 最 简单 的 模式 识别 网 络 ， 我 们 将 简单 地 说 明 。 
输入 硬 极限 神经 元 





a = hardlim(Wp4 b) 


图 13-5 instar 神经 元 


我 们 注意 到 图 13-5 的 instar 神经 元 与 图 4-3 的 感知 机 (图 10-2 的 ADALINE 以 及 图 7-5 
的 线性 联想 器 ) 的 相似 性 。 给 这 些 网 络 以 不 同 的 名 字 ， 部 分 是 因为 历史 的 原因 (因为 它们 产生 
于 不 同 的 时 期 和 环境 )， 并 且 因 为 它们 有 不 同 的 功能 ， 以 及 用 不 同 的 方法 分 析 。 例 如 ， 虽 然 
判定 边界 是 感知 机 的 重要 概念 ， 但 是 并 不 在 instar 中 直接 考虑 。 相 反 ， 我 们 将 分 析 instar HE 
行 模式 识别 的 能 力 ， 这 类 似 于 Hamming 网 络 的 第 一 层 神 经 元 (参见 3.2.3 节 )。 

instar 的 输入 /输出 表达 式 为 


a = hardlim(Wp + b) = hardlim(,;w'p + b) (13.26) 
instar 神经 元 在 输 向 量 和 权 值 向 量 的 内 积 大 于 等 于 -b 时 成 为 活跃 的 : 
iw pr-o (13.27) 


从 3.2.3 WEF Hamming 网 络 的 讨论 可 以 知道 ， 对 两 个 定 长 的 向 景 ， 它 们 的 内 积 在 其 
方向 相同 时 最 大 。 也 可 以 使 用 式 (5.15) 表 示 这 一 点 : 
iwp = | wi || p || cos® =- b (13.28) 
其 中 6 是 两 个 向 量 的 夹 角 。 易 见 当 6= 0 时， 内 积 最 大 。 如 果 p 和 iw 有 相同 的 长 度 (|p| = 
lwi)， 则 内 积 在 p=1iw 时 达到 最 大 。 
基于 上 述 讨论 ， 图 13-5 的 instar 神经 元 在 p HO" Tw 时 将 是 活跃 的 。 设 置 合 适 的 偏 
BA b, ， 就 可 以 选择 输入 向 量 和 权 值 向 量 的 接近 程度 ， 使 mstar 神经 元 被 激活 。 
如 果 设 
b =- hwlipl (13.29) 
WW instar 神经 元 只 有 在 p 的 方向 精确 等 于 ,w 的 方向 (6= 0) 时 才 活 跃 。 因 而 ， 我 们 就 有 了 一 个 
只 能 识别 模式 1w 的 神经 元 。 
如 果 想 让 instar 能 响应 任何 接近 ,w(6 很 小 ) 的 模式 ， 那 么 可 以 增加 6 到 大 于 - 
值 。5 值 越 大 ， 就 有 越 多 的 模式 能 激活 instar 神经 元 ， 也 就 使 它 具 有 更 小 的 分 辩 率 。 
应 该 注意 ， 这 里 的 分 析 假 设 所 有 的 输入 向 量 都 有 相同 的 长 度 ( 模 )。 我 们 将 在 第 14 ~ 16 
章 中 重新 考察 规格 化 问题 。 
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如 果 我 们 知道 要 识别 那个 向 量 ， 现 在 可 以 设计 出 一 个 向 量 识 别 网 络 。 然 而 ， 如 果 网 络 是 
无 监督 地 学 习 一 个 向 量 ， 将 需要 一 个 新 的 规则 ， 因 为 Hebb 规则 的 任何 形式 都 不 产生 规格 化 
的 权 值 。 

13.2.4 instar 规则 

带 衰 减 的 Hebb 规则 的 一 个 问题 是 要 求 刺激 不 断 重复 ， 否 则 联想 就 会 丢失 。 一 个 更 好 的 
规则 可 能 只 在 instar 神经 元 是 活跃 时 允许 权 值 衰减 。 这 样 权 值 仍 被 限制 ,但 遗忘 被 减 到 最 
小 。 再 次 考虑 Hebb 规则 的 原始 形式 。 

w; (q) = wig - 1) + aa;(q)p,(q) (13.30) 
instar 规则 ”为 了 在 获得 权 值 衰减 的 同时 限制 遗忘 问题 ， 可 以 加 上 一 个 与 a;(g) 成 比例 


的 衰减 项 : 
wi(q) = wilg—1)+aa(g)p(g) -Yal(g) w(tg—1) (13.31) 


可 以 设置 y 等 于 a 来 简化 (13.31) 式 (这 样 新 权 值 的 学 习 速 度 与 旧 值 的 衰减 速度 相同 )， 并 合 
并 同类 项 


wi(g) = wy(q - 1) + aai(q)(Cp,(q) - wyCq - 1) (13.32) 
该 等 式 称 为 instar 规则 ， 写 成 向 量 形式 : 
iw(9g) = iwlq - 1) + aaj(g)CpCg) - iwlg - 1) (13.33) 


如 果 考 虑 instar 活跃 (ai = 1) 的 情况 ， 就 可 以 很 好 地 理解 instar 规则 的 性 能 特点 。 式 
(13.33) 可 以 写成 
iW(g) = iw(g - 1) +a(p(g) - iw(g - 1)) 
= (1- o) iw(g - 1) + ap(q) 
该 运算 可 以 由 图 13-6 表示 。 


(13.34) 





13-6 instar 规则 的 图 形 表 示 


当 instar 神经 元 活路 的 时 候 ， 权 值 向 量 沿 着 旧 的 权 值 向 量 和 输入 向 量 连 线 向 输 和 人 向量 方 
向 移动 ， 权 值 向 量 移动 的 距离 决定 于 a 的 值 。 当 = 0 时 ， 新 的 权 值 向 量 等 于 旧 的 权 值 向 量 
(没有 移动 )。 当 a= 1 时 ， 新 的 权 值 向 量 等 于 输入 向 量 (最 大 移动 )。 如 果 “= 0.5， 则 新 的 权 


值 向 量 移动 到 旧 权 值 向 量 和 输入 向 量 正中 间 。 

instar 规则 的 一 个 有 用 特性 是 如 果 输 入 向 量 是 规格 化 的 ， 则 一 旦 ;w 学 习 了 一 个 特定 的 向 
量 p 后 也 会 成 为 规格 化 的 。 可 以 发 现 这 个 规则 不 仅 能 使 遗忘 减 到 最 小 程度 ， 并 且 在 输入 向 量 
是 规格 化 时 使 权 值 向 量 也 是 规格 化 的 。 
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将 instar 规则 应 用 于 图 13-8 的 网 络 中 。 由 图 13-6， 它 有 两 个 
A: 一 个 表示 水 果 是 在 视觉 上 是 否 作为 橘子 识别 (无 条 件 刺 
激 ); 另 一 个 包含 了 水 果 的 其 他 三 种 度量 (条 件 刺 激 )。 
网 络 的 输出 为 
a = hardlim ( w9 p? + Wp + b) (13.35) 
输入 p 的 元 素 被 限制 为 + 1( 如 第 3 章 式 (3.2) 所 定义 )。 这 个 限制 
13-2] 保证 p 是 规格 化 向 量 ， 其 长 度 为 |p| 2/3. p^ 和 p 的 定义 为 











形状 
1 ,视觉 上 探测 到 橘子 
"-lymsmwswr P7 ag) E 


偏 置 值 b 为 -2, t- | p| = -3 稍 大 一 些 ( 见 式 (13.29))。 
输入 硬 极限 神经 元 


视觉 上 是 橘子 


测量 的 形状 
测量 的 质地 
测量 的 重量 





a = hardlim(wopo4- W p +b) 


图 13-8 ”橘子 识别 器 


我 们 希望 网 络 在 橘子 的 视觉 和 响应 之 间 有 一 个 国定 的 联想 ， 故 可 以 设置 w^ AF - b. fH— 
开始 ， 网 络 不 应 该 对 任何 水 果 测 量 值 的 组 合作 出 响应 ， 所 以 测量 权 值 设置 为 全 0。 


w? = 3, W(0) = imw7(0) = [000] (13.37) 
测量 权 值 由 instar 规则 更 新 ， 其 中 学 习 速 度 a= 1。 
iw(g) = iw(g - 1) + a(g)(p(g) ~- iwCg - 1)) (13.38) 


训练 序列 包括 了 重复 出 现 的 橘子 信号 ， 测 量 值 每 次 都 给 出 。 但 为 了 说 明 instar 规则 的 操 
作 ， 我 们 假设 视觉 系统 由 于 构造 上 的 问题 只 在 偶数 步骤 运行 正常 。 


1 
-11] 
-1 
由 于 W 初始 化 为 余 0， 故 instar 神经 元 在 第 一 次 选 代 的 时 候 并 不 响应 橘子 的 测量 值 。 
a(1) = hardlim(w?p9(1) + Wp(1) ~ 2) 
1 


sosoo- 
-1 


1 
-1 
-4 


p°(1) = 0,p(1) = p°(2) = 1,p(2) = TE (13.39) 























- 13.40 
a(1) = hardlim -2]20 (无 响应 ) ( ) 











由 于 神经 元 没有 响应 ， 权 值 !w 并 不 由 instar 改变 。 
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jw) = ;w(0) + a(t) (p(1) - 1w(0)) 























| | | 0 0 (13.41) 
= | 0 十 0 ~ 1 一 = |0 
0 -1 0 0 
但 在 第 二 次 迭 代 中 ， 除 对 橘子 测量 之 外 ， 神 经 元 对 橘子 的 视觉 刺激 产生 了 响应 。 
a(2) = hardlim( wo p? (2) + Wp(2) - 2) 
(13.42) 


= hardlim 





3x14 CE 二 1 T) 
-1 
结果 神经 元 学 习 到 橘子 的 测量 向 量 和 响应 之 间 的 联想 。 权 值 向 量 ,w 成 了 橘子 测量 向 量 


的 拷贝 。 








ıw(2) = iw(1) + a(2)(p(2) - 1w(1)) 


























0 1 0 1 
(13.43) 

z[0 -4l|-1;- z|-1 

0 -1 0 -1 


网 络 现在 可 以 根据 橘子 的 测量 值 来 识别 橘子 了 。 在 第 三 次 迭代 中 即使 当 视觉 检测 系统 再 
次 失效 时 ， 神 经 元 依然 产生 响应 。 
a(3) = hardlim( w? p?(3) + Wp(3) - 2) 
1 
3x0+[1 ada 
-1 
在 完全 学 习 了 测量 后 ， 权 值 向 量 停止 了 改变 。( 低 的 学 习 速 度 将 需要 更 多 的 迭代 次 数 。) 
Ww) = 1W(2) + a(3)(p(3) - 1w(2)) 
-1 


1 1 1 
-1 = 
-1 -1 


-1 -1 

-1 -1 
此 时 网 络 在 视觉 检测 系统 失效 的 情况 下 ， 也 能 根据 测量 值 识 别 橘子 。 
试验 instar 规则 请 用 Neural Design Demonstration Instar (nnd13is) 和 Graphical 
Instar (nndl3gis) 。 


a(3) = hardlim 22-21 GR) (13.44) 











! (13.45) 


二 +1 一 





























Kohonen 规则 
此 时 可 以 引信 另 一 种 与 instar 规则 相关 的 联想 学 习 规 则 ， 即 Kohonen 规则 : 
wg) = wg - D e a(p(q) - iw(q - D), i € Xl) (13.46) 

类 似 于 instar 规则 ，Kohonen 规则 允许 神经 元 的 权 值 学 习 输 入 向 量 ， 因 此 适合 于 识别 应 用 。 
与 instar 规则 不 同 的 是 学 习 并 不 正比 于 神经 元 的 输出 a;(g)。 它 的 学 习 发 生 在 神经 元 的 下 标 
i 是 集合 工 (9 ) 的 元 素 时 。 

如 果 instar 规则 应 用 于 仅 返 回 值 为 0 或 1 的 传输 函数 (如 硬 极限 函数 ) 的 一 层 神经 元 时 ， 
Kohonen 规则 可 以 通过 将 X(9) 定 义 为 满足 aj(q)-1 的 所 有 i 的 集合 ， 从 而 与 instar 规则 等 





13-15] 


| 13-16 
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ffr; Kohonen 规则 的 优点 是 也 可 以 用 于 其 他 定义 。 它 对 于 训练 如 像 自 组 织 特性 映射 这 样 的 网 
络 (第 14 章 中 介绍 ) 是 有 用 的 。 


13.2.5 简单 回忆 网 络 


outstar 前 面 已 经 看 到 instar 网 络 ( 有 一 个 向 量 输入 和 一 个 标量 输出 ) 可 以 利用 将 特定 向 
量 刺激 与 响应 相 联 想来 实现 模式 识别 。 图 13-9 中 所 示 的 outstar 网 有 一 个 标量 输入 和 一 个 向 
量 输 出 。 它 可 以 利用 一 个 刺激 和 向 量 响应 之 间 的 联想 完成 模式 回忆 。 
这 个 网 络 的 输入 输出 表达 式 是 
a = satlins( Wp ) (13.47) 
之 所 以 选择 对 称 饱 和 函数 (satlins) 是 为 了 把 网 络 用 于 回忆 包含 1 或 -1 的 向 量 。 


输入 对 称 饱和 线性 层 





a= satlins(Wp) 
图 13-9  outstar 网 络 


如 果 我 们 希望 网 络 将 某 种 刺激 (输入 1) 和 一 个 特定 输出 向 量 aT 联想 ， 可 以 简单 地 设置 

W( 它 仅 包含 一 个 单列 向 量 ) 等 于 a" 。 这 时 如 果 p = 1， 输 出 将 是 a*: 
a = satlins( Wp) = satlins(a” - 1) = a* (13.48) 

(其 中 假设 a^ 的 元 素 都 是 小 于 或 等 于 1 的 。) 

注意 ， 我 们 通过 把 权 值 矩阵 的 一 列 设置 为 目标 向 量 来 构造 一 个 同 忆 网 络 ， 而 在 前 面 则 是 
通过 设置 权 值 矩 阵 的 一 行为 目标 向 量 来 设计 识别 网 络 的 。 

现在 可 以 设计 一 个 回忆 已 知 向 量 a* 的 网 络 ， 但 需要 一 个 在 无 监督 乱 件 下 学 习 向 量 的 学 
习 规则 。 我 们 将 在 下 节 中 描述 该 学 习 规则 。 


13.2.6 outstar 规则 


为 了 推导 instar 规则 ， 遗 忘 由 Hebb 规则 中 的 权 值 衰减 项 限制 为 与 网 络 的 输出 a; 成 比 
例 。 相 反 ， 为 了 得 到 outstar 学 习 规 则 ， 我 们 跟 制 权 值 衰减 项 与 网 络 输 入 p, 成 比例 : 


wi(q) = wi(q - 1) + aai(g) p,(q) - Yp(q)wy(q - V) (13.49) 
如 果 设 置 衰减 速度 y 等 于 学 习 速 度 并 合并 同类 项 ， 有 
wj(q) = wj(q- 1) + a(ai(q) - wi(g - 1))p,(q) (13.50) 


outstar 规则 的 特性 类 似 于 instar 规则 。 学 习 发 生 在 p, 不 等 0( 代 替 a )。 当 学 习 发 生 的 时 
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伐 ， 列 w 向 输出 向 量 方向 移动 。 
outstar 规则 ”正如 instar 规则 ，outstar 规则 可 以 写成 向 量 形式 : 


WwW(g) = w(q - 1) + a(a(g) - wg - D) p,q) (13.51) 
这 里 w, 是 矩阵 W 的 第 j 列 。 
为 了 检验 outstar 规则 ， 我 们 将 训练 图 13-10 所 示 的 网 络 。 
输入 对 称 饱和 线性 层 
CN {fi 
a, 回想 的 形状 
测量 的 形状 pe 
测量 的 质地 p? 
测量 的 重量 P3 







a 回想 的 质地 


à, 回想 的 重量 
识别 的 菠萝 P 


a = satlins (W°p°+ Wp) 


图 13-10 HSH . 
络 输 
网 络 输出 由 a = satlins( Wp’ + Wp) (13.52) 
计算 ， 其 中 
100 
Ww -01 0 (13.53) 
0 0 1 








由 图 13-11， 网 络 的 两 个 输入 提供 了 对 水 果 的 测量 po REA 
激 ) ， 以 及 表示 通过 视觉 确认 菠 葛 的 信号 p REAK). 








形状 OA 
p =| 质地 |,p = (a (aps (13.54) 
重量 
网 络 的 输出 反映 了 对 当前 被 检验 水 果 的 测量 值 ， 所 用 的 是 无 论 
什么 可 用 的 输入 。 


无 条 件 刺 激 的 权 值 矩阵 W 被 设置 成 单位 和 矩阵， 所 以 任何 
测量 值 集合 po( 取 +1 值 ) 可 以 拷贝 到 输出 a。 条 件 刺激 权 值 矩 
BE W 一 开始 被 设置 为 0, 这 样 p 为 1 时 就 不 产生 响应 ， 而 W 
用 outstar 规则 进行 更 新 ， 其 中 学 习 速 度 为 1: 

w,(q) = w(q - D + (alq) - wo - Dp(q) (13.55) 

训练 序列 包括 了 对 菠萝 的 视觉 和 测量 的 重复 表示 。 菠 葛 的 测量 值 为 
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-1 
p= =| -1 (13.56) 
1 
但 是 由 于 测量 系统 的 误差 ， 测 量 值 只 在 偶数 次 迭代 时 才 有 效 。 
0 -1 
113-18) lve =|0|,p(1) = 中 ee =| -1],p(2) = de (13.57) 
0 1 














第 一 次 选 代 时 看 到 了 菠 葛 ， 但 测量 值 不 对 。 
a(1) = satlins/W^p?(1) + Wp(1)) (13.58) 

















0 0 0 
a(1) = satlins| | 0 | +] 0 2|0 (无 响应 ) (13.59) 
0 0 0 





网 络 看 见 了 纠葛 ， 但 不 能 输出 合适 的 测量 值 。 这 是 因为 它 还 没有 学 习 到 ， 且 测量 系统 没有 开 
始 工 作 。 更 新 后 的 权 值 保持 不 变 。 









































0 0 0 0 
w,(D = w,(0) + (a(1) - w,(0))p(1) 2) 0|«|lJo|-|o[|r2|0| (13.60 
0 0 0 0 
第 二 次 迭代 时 ， 菠 葛 被 看 见 ， 而 且 获 得 正确 的 测量 值 。 
-1 0 -1 
a(2) = satlins| | - 1 中 |- -1 (给 出 测量 值 ) (13.61) 
1 0 1 
测量 值 是 可 用 的 ， 所 以 网 络 正确 地 输出 这 些 测量 值 。 权 值 更 新 如 下 : 
Wi(2) = w,(1) + (a(2) - w,(1)) p(2) 
0 -1 0 -1 | (13.62) 
=|0|+ -1 一 1=|-1 
0 1 0 1 





























因为 可 同时 获得 菠萝 的 视觉 和 测量 值 ， 因 此 网 络 形成 了 两 者 之 间 的 联想 。 权 值 矩 阵 现在 
13-19] 是 测量 值 的 拷贝 ， 所 以 测量 值 在 以 后 就 可 以 回忆 。 

在 第 三 次 迁 代 中 ， 测 量 值 再 次 成 为 不 可 用 的 ， 但 是 输出 为 
0 -1 -1 
0 -1 -1 
0 1 1 

网 络 现在 即使 在 测量 系统 失效 时 ， 也 能 回忆 菠 募 的 测量 值 。 从 现在 起 ， 权 值 只 有 在 菠 葛 
被 看 到 且 具 有 不 同 的 测量 值 时 才 会 发 生变 化 。 
w,(3) = w, (2) + (a(2) - w,(2)) p (2) 


HERSE n 


a(3) = satlins 十 - (回忆 的 测量 值 ) (13.63) 


























-1 
-1 
1 


+ 
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XS He X x4] outstar 规则 请 用 Neural Network Design Demonstration Outstar 
Rule(nnd130s) 








第 16 章 中 ， 我 们 将 介绍 ART 网 络 ， 其 中 用 到 了 instar 规则 和 outstar 规则 。 
13.3 小 结 
联想 
联想 是 网 络 输入 和 输出 之 间 的 一 种 联系 ， 即 当 某 个 刺激 A 提交 网 络 后 ， 将 输出 一 个 响应 B. 
联想 学 习 规 则 
无 监督 的 Hebb 规则 
W(q) = W(q - 1) + oa( g)p'Cq) 
带 衰 减 的 Hebb 规则 
W(q) = (1 - WC - 1) + cag) p76 q) 
instar 
输入 硬 极限 神经 元 
a=hardlim(Wp+b) 
az hardlim (w^ p + b) 
当 ;w7p= | w| | p || cos 0> ~ b 时 instar HAEA, HP 0E p Aw 之 间 的 夹 
instar 规则 


iW(g) = iw(g - 1) + aaji(g) CpCg) - ;wCg - 1)) 


iwga) = (1 -ow(g - D + apg), — 如 果 (ai(g) = 1) 





instar 规则 的 图 形 表示 ( a;(q) =1) 
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Kohonen 规则 
iW(g) = iw(g - 1) + a(p(q) - ;jw(q- 1), i€ X(g) 
outstar 
输入 对 称 饱和 线性 层 
a = satlins (Wp) 
outstar 规则 
13-22] w;i(q) = wi(g - D *a(a(q) - wq - 1) p,Cq) 

13.4 例题 


P13.1 式 (13.19) 计 算 了 带 衰减 的 Hebb 规则 的 最 大 权 值 ， 其 中 假设 p, 和 ai 在 每 个 时 间 
BRA 1. % p; la; 为 0 和 1 之 间 的 值 时 ， 计算 最 大 权 值 。 

解 . 

我 们 从 带 衰减 的 Hebb 规则 的 标量 形式 开始 

wi(qgtl) 2 (0-»)wi(q-1)« aa;(q) p, Cg) 
当权 值 在 两 个 时 间 步 更 新 时 ， 可 以 用 9 作为 下 标 重 写 这 个 表达 式 两 次 。 
wg € 1) = 人 (1- 力 2 这 9) + aai( a) p,Cq) 
wy(q+2) = (1- Y) wi(q +1) *aai(g + DpjCg +1) 

将 第 一 个 式 子 代 人 第 二 个 式 子 ， 得 到 w, 在 两 个 时 间 步 更 新 的 单一 表达 式 。 

wi(g+2) = (1- y((1- wq) + ea; q) p,Cq)) + aai(q + l)p (q +1) 

此 时 可 以 代入 p, Ma 的 值 。 由 于 我 们 在 计算 最 大 权 值 ， 设 p; Ca) fll a; (4) A 0, 
pi(g+ 1) 和 a; Cq + 1) 为 1。 这 意味 着 在 第 一 步 权 值 减少 ， 而 第 二 步 权 值 增 加 ， 以 保证 
wyla +2) 为 两 个 权 值 中 的 最 大 值 。 如 果 求 解 w; (gq +2)， 有 

wi(q -2) = 人 《1 - Y? wg) +a 
假设 w; 最 终 将 达到 稳定 状态 ， 或 可 以 设 wj(g +2) 和 w PEA wi RAKE, HI 


wp” = (1 - Y wie +a 





我 们 用 MATLAB 绘制 这 个 关系 图 。 这 个 图 表示 在 相间 0.025 的 各 个 区 间 上 的 学 习 速 度 和 衰 
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减速 度 。 
lr = 0:0.025:1; 
dr = 0.025:0.025:1; [13-23] 
下 面 是 建立 最 大 权 值 的 格 网 图 的 命令 ， 最 大 权 值 是 学 习 速 度 和 衰减 速度 的 函数 。 


[LR, DR] = meshgrid (dr, Ir); 
MW = IR ./ (IR. * (2- DR); 
mesh(DR, LR, W); 


图 中 显示 了 当 衰 减速 度 与 学 习 速 度 a 相 比 为 很 小 的 值 时 ，w8 趋 向 无 限 ( 见 图 13-12). 








衰减 度 mo 学 习 速度 


图 13-12 RABE wp” 


P13.2 设 学 习 速度 为 0.4， 用 instar 规则 训练 图 13-8 中 的 橘子 识别 网 络 。 使 用 相同 的 学 
习 序 列 ， 需 要 多 少 步 网 络 才 能 根据 测量 值 识别 一 个 模子 ? 
解 
下 面 是 训练 序列 。 它 一 直 重 复 直 到 网 络 即 使 在 视觉 系统 失效 (p" = 0) 时 也 能 对 橘子 的 测 
-1 


量 值 (p= [1 -1 - 7) 做 出 响应 。 
1 
p0(2) = 1,p(2) = | -1 工 | 
-1 -1 13-24 


我 们 用 MATLAB 来 求解 。 下 面 两 行 代码 设置 权 值 的 初始 值 。 


w023; 
w= [000]; 


然后 可 以 模拟 网 络 的 第 1 步 。 
pO = 0; 


1 


> 














|o = 0,p(1) = 
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p = [1;-1; -1]; 
a = hardlim(w0* p0 +W* p-2) 
a= 


0 
神经 元 还 不 能 识别 橘子 ， 因 此 输出 为 0。 当 采用 instar 规则 时 ， 权 值 并 不 改变 。 


W - W + 0.4'a' (p'-W) 


W= 
000 
神经 元 开始 学 习 第 2 次 迭代 中 的 测量 值 。 
p0 = l; 


p = [1; -1;-1]; 
a = hardlim (w0* p0 + W" p-2) 
a= 
1 
W = W + 0.4* a" (p'-W) 
W= 
0.4000 -0.4000 -0.4000 


但 在 第 3 次 迭代 中 联想 仍然 不 够 强 而 不 能 作出 响应 。 


p0 = 0; 
p = [13 -1;-1]; 
a = hardlim(w0* p0 +W’ p-2) 
act 
0 
W= W+ 0.4* a* (p'-W) 
W= 
| 13-25 0.4000 -0.4000 -0.4000 
这 是 第 4 次 迭代 的 结果 ; 
az 
1 
W= 
0.6400 -0.6400 -0.6400 
BS 次 和 迭代: 
az 
0 
W 二 


0.6400 -0.6400 -0.6400 
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第 6 Xx: 


1 


0.7840 -0.7840 -0.7840 
在 第 7 次 迭代 中 网 络 能 够 单独 根据 测量 值 识别 橘子 。 


p0 = 0; 
p = (1; -1; -1]; 
a = hardlim(w0* p0+W* p-2) 


a 
1 
w=W+ 0.4*a* (p'-w) 


W 


0.8704 -0.8704 -0.8704 


由 于 学 习 速 度 较 低 ， 网 络 必须 经 过 3 次 测量 值 和 响应 的 匹配 (偶数 次 迭代 ) 才 能 在 两 者 之 


间 建 立 强 的 联想 。 


P13.3 本 章 的 识别 和 回忆 网 络 都 只 能 学 习 一 个 向 量 。 画 一 个 能 识别 和 响应 下 述 两 个 向 


量 的 网 络 图 并 确定 网 络 的 参数 ， 








5 
p =| -5 
5 


网 络 只 能 响应 与 上 述 向 量 之 一 相同 的 一 个 输入 向 量 。 
解 


我 们 知道 因为 要 识别 三 元 输入 向 量 ， 网 络 必须 有 三 个 输入 。 同 时 还 知道 网 络 有 两 个 输 


出 ， 分 别 对 应 两 个 响应 。 


这 样 的 网 络 可 以 由 两 个 instar 神经 元 组 合 到 一 个 单 层 网 络 而 成 ， 如 图 13-13 Bran 





a = hardlim (Wp +b) 


图 13-13 两 向 量 识 别 网 络 


13-26 
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现在 设置 第 一 个 神经 元 的 权 值 ,w 为 p ， 所 以 当 输入 向 量 点 与 p, 方向 相同 时 其 净 输 入 达 
到 最 大 值 。 类 似 地 ， 设 置 ?w 为 m ， 这 样 第 二 个 神经 元 对 p, 方向 的 向 量 最 敏感 。 将 权 值 向 量 


组 合成 权 值 矩 阵 
w- "| |" -| 5 -5 s] 
w^ p -5 5 5 
(注意 ， 我 们 这 里 使 用 了 与 Hamming 网 络 第 一 层 相 同 的 确定 权 值 答 阵 方式 。 实 际 上 ，Ham- 
ming 网 络 的 第 一 层 就 是 由 instar 神经 元 构成 的 。 更 详细 的 讨论 请 见 下 一 章 。) 








P,> P 的 长 度 相 同 : 
23-7, lp l= Ip] = V G3 + (5)? + GP = V75 
为 了 保证 输入 向 量 和 引起 响应 的 存储 向 量 能 精确 匹配 ， 两 者 的 偏 置 值 依 式 (13.29) 可 设 
置 如 下 : 


bi = b =- [p| =-75 
我 们 用 MATLAB 来 检查 网 络 确实 对 p, 作出 响应 。 
Ww= [5 -5 5; -5 5 5]; 
b = {-75; -75]; 
pl = [5; -5; 5]; 
a = hardlim(W" pl +b) 
a= 
1 
0 
第 一 个 神经 元 作出 响应 ， 表 示 输 和 人 向 量 是 p,。 第 二 个 神经 元 没有 响应 ， 表 示 输 入 向 量 
不 是 p,。 还 可 以 检查 网 络 对 不 同 于 任何 一 个 存储 向 量 的 第 三 个 向 量 ps 不 会 作出 响应 。 
p3 = [-5; 55 -5]; 
a = hardlim(W" p3 +b) 
az 
0 
0 
没有 一 个 神经 元 能 识别 这 个 新 的 向 量 ， 所 以 两 个 输出 都 为 0。 
P13.4 一 个 用 于 模式 识别 的 单 instar 神经 元 ， 它 的 权 值 和 偏 置 值 如 下 : 
W=w =[l -1 -1], b=-2 
一 个 输入 向 量 (长 度 为 V3 ) 与 权 值 向 量 接近 到 何 种 程度 才能 使 神经 元 的 输出 为 1? 求 一 个 
向 量 ， 它 出 现在 能 识别 的 向 量 和 不 能 识别 的 向 量 之 间 的 边界 。 
解 
我 们 先 写 出 神经 元 输出 的 表达 式 : 
a = hardlim(,w'p + b) 
13-28, 由 hardlim 的 定义 ， 当 且 仅 当 ;,w 和 p 的 内 积 大 于 或 等 于 - b E a TA 1: 
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iwp = [iw] ll p ll cost =- b 
代 换 范 数 并 求解 可 以 获得 满足 该 条 件 的 ,w 和 了 间 的 最 大 角度 
(V3)(V3)cosg > 2 
0 < es (2) = 48.19 
为 了 得 到 一 个 模 为 /3 的 边界 向 量 ， 需 要 求 一 个 向 量 p 满足 下 述 条 件 : 
lpi 2 V pi + pi + pi = 3 
iwp = wip, + 2p, + wp3 -b= pi- py - p4-2 - 0 


由 于 有 三 个 变量 ， 而 只 有 两 个 约 东 条件， 可 以 设 第 三 个 变量 p = 0， 并 求解 
Vpt+p+p=y3 = pl+p3=3 


Pi P27-p3-2-0 一 p2+ p3 =-2 





(p, + p3)? = pp + pá *2p;p4 = (-2)? = 4 
3+2p,p,=4 = pop, = 0.5 
pop, + p3) = pl * pops = pi * 0.5 = p,(-2) =- 2p, 
稍 作 运 算 求 出 p, 的 两 个 可 能 解 : 
pl+2p,+0.5=0 
p;2-]l«& / 0.5 
为 了 使 p, 满足 上 述 值 ，p, 要 取 以 下 值 : 
P2 + P3 --1£0.54p,-2-2 
P3 =- 1 干 V0.5 
因此 ， 下 述 p 是 与 w 有 合适 距离 的 可 识别 向 量 。 


0 
sena 
-1-40.5 
可 以 将 它 代 人 网 络 验算 ， 
a = hardlim (w^ p + b) 
0 
a = hardlim| [1 -1  - 1] ma 
-1- 0.5 





a = hardlim(0) = 1 
向 量 p PRAWN O, AMEE instar 神经 元 活跃 区 的 边界 上 。 
P13.5 考虑 图 13-4 中 所 示 的 instar 网 络 ， 这 个 网 络 的 训练 序列 包括 以 下 输入 : 


fpo = 0,p(1) = [Heo _ 1,p(2) = PIE 
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这 两 个 输出 重复 提交 到 网 络 中 ， 直 到 权 值 矩阵 W 收敛 。 
Ci) 用 学 习 速 度 "= 0.5 执行 instar 规则 的 前 四 次 迭代 。 假 设 初始 权 值 矩 阵 W 被 设置 为 





ES . 
113-30 (ii) 用 图 形 形 式 显示 instar 规则 的 每 一 次 迭代 结果 (如 图 13-6) 
输入 硬 极限 神经 元 
a = hardlim(w9p? +W p +b) 
图 13-14 例题 P13.5 的 instar 网 络 
解 


Ci) BELT WE 4 0, instar 神经 元 在 第 一 次 近代 时 将 不 响应 测量 值 。 
a(1) = hardlim (w? p°(1) + Wp(1) - 2) 
a(1) = hardlim [3 -0+ [0 o] -2 =0 
神经 元 不 响应 。 根 据 instar 规则 ， 它 的 权 值 ,w 不 改变 。 
iw(1) = 1w(0) + 0.5a(1)(p(1) - ,wCO)) 
io] ll} lel] lo] 
= + 0 一 = 
0 1 0 0 
由 于 第 二 次 和 迭代 时 出 现 无 条 件 刺激 ，instar 神经 元 将 响应 。 
a(2) = hardlim(w°p°(2) + Wp(2) - 2) 





a(2) x hardlim |3 - 1 «(0 o1] - 2) = 1 


"331 神经 元 产生 了 响应 ， 且 它 的 权 值 ,w 根据 instar 规则 更 改 。 
;W(2) = ;w(1) + 0.5a(2)(p(2) -1w(1)) - 


= lo «os ] -ll]- os] 
第 三 次 迭代 时 ， 无 条 件 刺 激 没 有 出 现 ， 而 且 权 值 没 有 收敛 到 与 输入 模式 足够 接近 ， 因 此 ， 
instar 神经 元 不 响应 。 





a(3) = hardlim (w9 p9(3) + Wp(3) - 2) 
a(3) = hardlim (3 x0«[-0.5 os]! | -2| = 0 


由 于 神经 元 不 响应 ， 它 的 权 值 也 不 发 生 改 变 。 
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1w(3) = ;w(2) + 0.5a(3) (p(3) - 1w(2)) 
Uu bs [7:5] [705] 
= +0 一 - 
0.5 1 0.5 0.5 
由 于 无 条 件 刺激 在 第 四 次 迭代 中 再 次 出 现 ，instar 神经 元 将 啊 应 。 
a(4) = hardlim (w9p9(4) + Wp(4) - 2) 


a(4) = hardlin (3 x1+{-0.5 o.s[ ^. ] - 2 = | 


由 于 instar 神经 元 被 激活 ， 它 的 权 值 也 要 更 新 。 
Iw(4) = Iw(3) +0.5a(4)(p(4) - 1W(3)) 


-人 


这 完成 了 第 四 次 迭代 。 如 果 我 们 继续 下 去 ，1w 将 收敛 于 po 

(ii) 注意 到 权 值 仅 在 第 二 和 四 次 迭代 (instar 神经 元 活跃) 时 改变 。 回 忆 式 (13.34)， 当 
instar PATER, SUMMA GA 

iW) = 1w(g - 1) +a(p(g) -wg - 1) = (1 - a) iwCBg - 1) + ap(g) 

M instar 神经 元 活跃 时 ， 权 值 向 量 沿 着 旧 权 值 向 量 和 输入 向 量 之 间 的 连 线 向 输入 向 量 方 
向 移动 。 图 13-15 显示 了 本 题 中 权 值 向 量 的 移动 。 权 值 在 第 二 和 四 次 迭代 时 更 新 。 由 于 
a=0.5, 当 instar 神经 元 活跃 时 权 值 向 量 将 从 当前 位 置 移 动 到 输入 向 量 的 中 心 位 置 。 

1w(g) = (0.5) Iw(g - 1) + (0.5)p(g) 








图 13-15 instar 规则 的 例子 


13.5 结束语 


本 章 中 介绍 了 一 些 能 产生 联想 的 简单 网 络 ， 同 时 还 研究 了 使 网 络 产生 新 联想 的 学 习 规 
则 ， 每 条 规则 通过 增强 同时 发 生 的 刺激 和 响应 之 间 的 联想 发 生 作用 。 

简单 的 联想 网 络 和 学 习 规则 本 身 就 很 有 用 ， 而 它们 也 是 构成 更 强 网 络 的 重要 单元 。 本 章 
介绍 的 两 种 网 络 和 相关 的 学 习 规则 是 下 面 三 章 讨 论 的 一 些 重要 的 网 络 的 基础 。instar 网 络 用 
于 训练 识别 某 种 模式 ，outstar 网 络 则 用 于 训练 回忆 模式 。 我 们 将 在 第 14 和 15 章 中 用 instar 
网 络 层 进行 模式 识别 。 这 些 网 络 非常 似 于 第 3 章 的 Hamming 网 络 ( 它 的 第 一 层 事实 上 是 由 
instar 神经 元 构成 )。 第 16 章 将 介绍 一 个 更 复杂 的 网 络 ， 它 将 instar 和 outstar 组 合 在 一 起 产 
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(Sad) 生 稳定 的 学 习 。 
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习题 
E13.1 图 13-16 中 的 网 络 使 用 带 误 减 的 Hebb 规则 进行 训练 ， 其 中 学 习 速 度 a=0.3， 豪 
减速 度 y=0.1 
(i) AR w WIO, wA b 保持 常数 (如 图 13-16 所 示 )， 需 要 将 下 面 的 
训练 集 连 续 输 入 网 络 多 少 次 才能 使 神经 元 响应 测试 集 ” 绘制 w 与 迭代 次 
数 的 关系 图 : 
训练 集 [p921, p-1l, 测试 集 : (p?-0, p-1l 
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Cii) 如 果 w 初始 化 为 1， 需要 将 下 述 训练 集 连 续 输 入 网 络 多 少 次 才能 使 神经 元 
响应 测试 集 ? 绘制 w 与 选 代 次 级 的 关系 图 : 
训练 集 : jp°=1, p=0l, 测试 集 : 1p?=0, p=1] 
输入 硬 极限 神经 元 





a = hardlim(wop? + wp +b) 


图 13-16 联想 网 络 
E13.2 对 练习 E13.1 的 问题 (i)， 用 式 (13.19) 确 定 w HRA, FAY E13.1 问 


题 (i) 的 图 验证 这 个 结果 。 
E13.3 重复 练习 E13.1, 但 此 时 用 无 衰减 (Y=0) 的 Hebb 规则 。 
E13.4 下 述 规则 类 似 于 instar 规则 ， 但 它 的 表现 有 很 大 不 辣 : 
Aw; = ~ aa;(p, + wt) 


(i) 确定 Aw; 为 非 0 的 条 件 。 
(di) 4 Aw,dE O ATRUF a? 
(ii) 考虑 该 规则 有 哪些 用 途 ? 

E13.5 图 13-17 中 的 instar 网 络 用 以 识别 向 量 。 


输入 硬 极限 神经 元 





a = hardlim(wp + Wp +b) 


图 13-17 ”向量 识别 器 
Ci) 用 instar 规则 和 下 述 训练 序列 训练 网 络 。 只 将 instar 规则 用 于 第 二 个 输入 权 值 
(初始 化 为 0) ， 使 用 学 习 速 度 0.6。 其 他 权 值 和 偏 置 值 保持 为 图 中 所 示 的 常 
数 。( 可 以 用 MATLAB 完成 计算 。) 


o . | oj G 7 vue || 


282 WEE PI AE 1 tf 





val f (mp {,° ] wl 


o . E sl] | | [usn 
l, (5) = 1, p(s) = [074 p°(6) = 0, p(6) = 0.985 


Ci) RAN W 值 是 多 少 ? 
(13-38) (iii) 最 后 的 值 与 训练 序列 中 的 向 量 相 比如 何 ? 
(iv) 如 果 网 络 用 相同 的 训练 序列 迭代 多 次 ， 权 值 在 训练 后 的 数值 应 该 是 多 少 ? 
E13.6 考虑 图 13-18 中 的 instar 28, 网络 的 训练 序列 将 由 下 列 输入 组 成 : 


[o =o, go «| T om <1 per =| 1 | fe 


这 两 个 输入 集 重复 输入 网 络 直至 权 值 矩阵 W 收敛 。 

(i) 执行 instar 规则 的 前 8 次 送 代 ， 其 中 学 习 速度 a= 0.25。 假 设 权 值 和 矩阵 W 
的 初始 值 为 W=[1 0]。 

(ii) 用 图 形 方式 显示 每 次 迭代 的 结果 (如 图 13-6 所 示 )。 





a= hardlim(wop) - Wp +b) 


图 13-18 习题 E13.6 的 instar 网 络 
E13.7 画 出 当 给 定 不 同 的 刺激 ( 值 为 1) 时 能 识别 三 种 不 同 的 四 元 素 向 量 ( 元 素 值 为 1) 





的 网 络 图 。 
, (i) 网 络 应 有 多 少 个 输入 和 输出 ? 传输 函数 是 什么 ? 
[13-39] (ii) 如 果 它 能 识别 下 述 向 量 ， 请 给 出 网 络 的 权 值 
1 -1 1 
-1 -1 -1 
P =| | pz =] 1 P=] | 
-1 -1 1 


(Hi) 选择 合适 的 偏 置 值 ， 并 解释 原因 。 
(iv) 用 上 述 向 量 之 一 检查 网 络 。 它 的 响应 正确 吗 ? 
-i 
(v) Fifi p, =| ， | 检查 网 络 。 它 的 响应 为 什么 是 正确 的 ? 
1 
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E13.8 本 章 包含 一 个 识别 网 络 的 例子 ， 最 初 用 视觉 系统 来 识别 橘子 。 一 开始 需要 视觉 
系统 通知 网 络 何 时 有 橘子 ， 但 最 后 网 络 学 习 了 用 传感器 的 测量 来 识别 橘子 。 
CA) 让 我 们 用 人 来 代替 视觉 系统 。 一 开始 网 络 依靠 人 告诉 它 是 和 否 有 橘子 。 你 认 

为 此 时 的 网 络 是 有 监督 学 习 还 是 无 监督 学 习 ? 

(ii) 在 何 种 情况 下 ， 人 的 输入 类 似 于 前 面 几 章 中 用 于 有 监督 训练 的 目标 ? 
(iii) 它 在 什么 情况 下 是 不 同 的 ? 

E13.9 图 13-19 的 网 络 安装 在 一 个 电梯 中 ， 该 电梯 在 一 个 豪华 和 
高 度 安 全 的 公司 大 厦 中 由 三 个 高 级 执行 官 使 用 ， 它 有 标 
记 “1” 到 “4” 的 4 个 按钮 表示 底层 上 面 的 四 层 。 当 一 个 执 
TE 进入 电梯 底层 后 ， 电 梯 用 视网膜 扫描 的 方式 判断 是 
谁 ， 并 用 网 络 决定 这 个 人 最 可 能 去 的 楼 层 。 如 果 猜 测 不 


对 ,这 个 人 可 以 在 任何 时 候 按 不 同 的 按钮 ， 否 则 它 将 省 | 





去 这 个 重要 执行 官 的 按钮 动作 。 
网 络 的 输入 /输出 函数 为 图 13-19 
a = hardlims( W^p? + Wp + b) 
输入 对 称 硬 极限 层 





J 
a = hardlims(W?p? +W p + b) 


图 13-20 电梯 网 络 
当 按 钮 按 下 时 第 一 个 输入 p 提供 网 络 一 个 楼 层 代码 (图 13-21)。 


e [1] omae [^] ew 


四 -| (3 楼 ) 加 = | | aw 
如 果 没 有 按 按钮 ， 则 无 代码 。 
s = | 5 | camem 


第 一 个 输入 由 一 单位 矩阵 加 权 ， 且 偏 置 值 设 为 -0.5， 这 样 如 果 按 了 。 四 132! 
按钮 ， 网 络 将 响应 出 楼 层 代码 。 
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W? = I, p= [°] 
-0.5 
[13-41] 第 二 个 输入 总 是 存在 的 。 它 包含 的 三 个 元 素 代 表 了 三 位 执行 官 ， 
1 0 0 
p, =| 0 | (总 裁 )， p = | 1 |( 副 总 裁 )， ps = | 0 | (董事 长 ) 
0 0 1 




















网 络 通过 用 outstar 规则 (学 习 速 度 为 0.6) 更 新 第 二 组 权 值 ， 学 习 回 忆 三 位 执行 
官 所 在 的 楼 层 。 这 些 权 值 最 初 均 设置 为 零 ; 


W = 








0 0 0 
0 0 0 
0 0 0 
(1) 用 MATLAB 模拟 下 列 事件 的 网 络 : 
总 裁 按 按钮 “4' ， 副 总 裁 按 按钮 “3 
董事 长 按 按 钮 “1' ， 副 总 裁 按 按钮 “3 
董事 长 按 按 钮 “2' ， 总 裁 按 按钮 4 
换血 话说 ， 用 下 述 序列 训练 网 络 ，: 
ip = p p=pih ip =p p=pl,lp =p, p= pj, 
lp =p p=pl,lp =p), p= pl,lp =p, p=p| 
(ii) 最 后 的 权 值 是 什么 ? 
( 首 ) 现 在 继续 对 下 述 事 件 模 拟 网 络 : 
总 裁 不 按 按钮 
副 总 裁 不 按 按钮 
董事 长 不 按 按钮 
(iv) 网 络 把 每 位 执行 官 送 到 哪 一 楼 层 ? 
(v) 如 果 三 位 执行 官 分 别 按 下 述 按钮 许多 次 ， 你 期 望 得 到 的 权 值 抢 阵 是 什么 形 
A? 
DRIIZ ‘3° 
副 总 裁 按 按钮 “2 
董事 长 按 按钮 “4 ” 


第 14 章 竞争 网 络 


14.4 目的 


第 3 章 所 介绍 的 Hamming 网 络 ， 展 示 了 一 种 用 神经 网 络 进行 模式 识别 的 技术 ， 这 种 技 
术 需 要 事先 知道 原型 模式 并 且 将 原型 模式 以 权 值 矩阵 的 行 和 网 络 相 结合 。 

本 章 我 们 将 讨论 一 些 在 结构 以 及 操作 上 都 与 Hamming 网 络 极 为 相似 的 网 络 。 与 Ham- 
ming 网 络 不 同 的 是 ， 这 些 网 络 使 用 第 13 章 的 联想 学 习 规 则 对 模式 分 类 进行 自 送 应 学 习 ， 本 
章 介绍 了 三 种 这 样 的 网 络 : 竞争 网 络 、 特 征 图 网 络 和 学 习 矢 量 量 化 网 络 。 


14.2 理论 和 实例 


Hamming 网 络 是 竞争 网 络 中 最 简单 的 例子 。 它 的 输出 层 神经 元 互相 竞争 以 确定 胜 者 。 
胜 者 将 指出 哪 -一 种 原型 模式 最 能 代表 输入 模式 。 这 种 竞争 是 通过 在 输出 层 神经 元 之 间 一 组 负 
连接 ( 即 侧 向 抑制 ) 来 实现 的 。 本 章 我 们 将 说 明 这 种 竞争 何以 能 够 与 第 13 章 中 的 联想 学 习 规 
则 相 结 合 来 建立 强大 的 自 组 织 ( 无 监督 的 ) 网 络 。 

AZ 1959 Æ, Frank Rosenblatt 就 创造 了 一 种 简单 的 “自发 ”分 类 器 ， 这 是 种 基于 感知 机 
的 无 监督 的 神经 网 络 。 这 种 网 络 能 够 学 会 将 输 和 人 的 矢量 分 类 成 数目 大 致 相等 的 两 类 。 

在 20 世纪 60 年 代 后 期 及 70 FRE, Stephen Crossberg 引入 了 许多 使 用 侧 向 抑制 而 
产生 良好 效果 的 竞争 网 络 。 他 获得 的 有 用 特性 就 是 减少 噪声 、 对 比 增加 和 向 量规 格 化 。 第 
15 章 及 第 16 章 将 讨论 他 的 这 些 网 络 。 

1973 Æ, Christoph von der Malsburg 引 人 了 一 种 自 组 织 的 学 习 规 则 ， 这 种 规则 用 这 样 方 
法 归 类 输入 ， 使 得 相 邻 的 神经 元 对 相似 的 输入 产生 反应 。 他 这 种 网 络 的 拓扑 结构 以 某 些 方式 
模仿 David Hubel 和 Torten Wiesel 过 去 所 发 现 的 猫 的 视觉 皮层 的 结构 。 他 的 学 习 规 则 引起 了 
人 们 极 大 的 兴趣 ， 但 是 这 种 学 习 规则 使 用 一 种 非 局 部 计算 以 保证 权 值 是 规格 化 的 。 这 使 得 它 
在 生物 学 上 缺少 合理 性 。 

Grossberg 重新 发 现 instar 规则 (在 第 13 章 中 介绍 过 )， 从 而 发 展 了 von der Malsburg 的 
成 果 (instar 规则 首先 是 由 Nils Nilsson 1965 年 在 他 的 《学 习 机 器 》( Learning Machines) — f rh 
首先 介绍 的 ) Grossberg 证 明了 instar 规则 免 去 了 重新 规格 化 权 值 的 必要 性 ， 因 为 学 习 规格 
输入 向 量 的 权 值 向 量 能 够 自动 使 自己 规格 化 。 

Grossberg 和 von der Malsburg 的 工作 着 重 于 他 们 的 网 络 在 生物 学 上 的 合理 性 。 另 一 位 颇 
具 影 响 力 的 研究 者 Teuvo Kohonen 也 是 竞争 网 络 的 积极 提议 者 。 然 而 他 的 重点 主要 在 网 络 的 
工程 应 用 以 及 有 效 的 数学 描述 。20 世纪 70 年 代 中 ， 他 发 展 一 种 instar 规则 的 简化 形式 ， 并 
A von der Malsburg 和 Grossberg 的 启发 ， 发 现 一 种 有 效 的 将 拓扑 结构 结合 为 竞争 网 络 的 
方法 。 

在 本 章 我 们 集中 讨论 Kohonen 的 竞争 网 络 框架 ， 他 的 模型 体现 了 竞争 风 络 的 主要 特征 ， 
而 且 也 比 Grossberg 的 网 络 在 数学 上 更 易 处 理 。 这 些 网 络 为 竞争 学 习 提供 了 和 良好 的 说 明 。 


14-1 








下 
t3 
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我 们 将 从 简单 的 竞争 网 络 开 始 。 然 后 将 结合 网 络 拓扑 结构 讲解 自 组 织 特征 图 。 最 后 我 们 
将 讨论 学 习 向 量 量 化 。 它 将 竞争 和 有 监督 的 学 习 框架 结合 起 来 。 
14.2.1 Hamming 网 络 


既然 本 章 所 讨论 的 竞争 网 络 与 Hamming 网 络 ( 见 图 14-1) 紧密 相关 ， 所 以 先 回顾 一 下 
Hamming 网 络 的 一 些 主要 概念 。 





al = purelin(W'p + b!) a7(0)=a' a2(t+1) = poslin( Wzazn) 


图 14-1 Hamming 网 络 


Hamming 网 络 由 两 层 组 成 。 第 一 层 ( 有 instar 的 那 一 层 ) 将 输入 向 量 与 原型 向 量 联系 起 
来 。 第 二 层 采用 竞争 方式 决定 哪 种 原型 向 量 最 接近 输入 向 量 。 

1. 第 一 层 

从 第 3 章 知 道 ， 一 个 instar 只 能 够 识别 一 种 模式 。 为 了 能 够 识别 多 种 模式 ， 就 必须 有 多 
种 instar, Hamming 网 络 实现 了 这 一 点 。 


假设 要 让 网 络 识别 以 下 原型 向 最 
(14.1) 


[Pi P2 po! 
第 一 层 的 权 值 矩 阵 为 W!, fp ELS] RE bl 是 
iw? pi R 
T T 
wef J-P], pal f (14.2) 
w Po R 


矩阵 W 的 每 一 行 都 代表 我 们 想 要 识别 的 一 种 原型 向 量 ，bl 的 每 个 元 素 都 设 为 等 于 每 个 
输入 向 量 的 元 素 个 数 R( 神 经 元 个 数 S 等 于 将 识别 的 原型 向 量 的 个 数 0 )。 
第 一 层 的 输出 是 
了 
ppt+R 


Tp R 
a = Wip+b =| PP (14,3) 


T 
pop + R 
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注意 ; 第 一 层 的 输出 等 于 原型 向 量 与 输入 的 内 积 再 加 上 R。 正 如 我 们 在 第 3 3$ 3.2.3 节 
讨论 的 那样 ， 这 些 内 积 表明 原型 向 量 与 输入 向 量 之 间 的 接近 程度 。( 也 见 13.2,3 节 对 instar 
的 讨论 。) 

2. 第 二 层 

在 第 13 章 对 instar 的 讨论 中 ， 使 用 了 硬 极限 传输 函数 来 确定 输入 向 量 离 原型 向 量 是 否 
足够 近 。 在 Hamming 网 络 的 第 二 层 有 多 个 instar， 因 此 必须 确定 哪个 原型 向 量 与 输入 最 为 接 
近 。 我 们 将 会 使 用 一 个 竞争 层 而 不 是 硬 极 限 传输 函数 来 选择 最 为 接近 的 原型 ， 

第 二 层 是 竞争 层 。 这 一 层 的 神经 元 用 前 馈 层 的 输出 初始 化 ， 这 些 输出 指明 了 原型 模式 与 
输入 向 量 的 相互 关系 。 然 后 神经 元 相互 竞争 以 确定 胜 者 。 竞 争 过 后 ， 只 有 一 个 神经 元 有 非 零 
输出 。 获 胜 的 神经 元 指明 输入 属于 哪 类 (每 个 原型 向 量 代表 一 个 类 )。 

第 一 层 的 输出 al 用 来 初始 化 第 二 层 : 

a(0) = ai (14.4) 
然后 第 二 层 的 输出 用 如 下 递归 关系 更 新 : 
a(t 4 1) = poslin(Wa’(z)) (14.5) 

第 二 层 的 权 值 矩阵 W 的 对 角 线 元 素 都 被 设 为 1， 不 在 对 角 线 上 的 元 素 ， 设 为 某 个 小 的 
负数 : 

wi = L. i2) (其 中 0 <e< z4) (14.6) 
横向 抑制 ”这 个 矩阵 产生 横向 抑制 ， 即 每 个 神经 元 的 输出 都 将 对 所 有 其 他 的 神经 元 产生 
一 种 抑制 作用 。 为 了 说 明 这 种 效果 ， 用 1 和 -。 的 权 值 代入 W 中 合适 的 元 素 。 


alt +1) = postin| dC - aio] (14.7) 


FEUER, S TRESTCTU SG ABS ESI PUE C (tuti £8 7 E B5 30487 E A P EE CR NI 
出 为 0) 。 初 始 状态 最 大 的 神经 元 比 起 其 他 神经 元 的 输出 降 得 慢 一 些 。 最 终 这 个 神经 元 将 成 
为 惟一 一 个 有 正 值 输出 的 神经 元 。 这 时 网 络 已 达到 了 稳定 状态 。 第 二 层 神经 元 中 有 稳定 正 值 
输出 的 神经 元 是 和 输入 匹配 得 最 好 的 原型 向 量 的 那个 神经 元 。 

胜 者 全 得 ”因为 只 有 一 个 神经 元 有 非 零 输出 ， 这 就 被 叫 作 胜 者 全 得 竞争 ， 在 第 15 章 我 
们 将 讨论 这 种 竞争 。 

如 果 想 试验 Hamming 网 络 如 何 解决 革 果 、 郴 子 的 分 类 问题 ， 可 以 用 第 3 章 介 绍 过 的 
Neural Network Design Demonstration Hamming Classification nnd3hamc) . 





14.2.2 ZAE 
竞争 “Hamming 网 络 的 第 二 层 的 神经 元 激活 自己 而 抑制 所 有 其 他 神经 元 ， 这 就 叫做 竞 
+. 为 了 简化 本 章 余下 部 分 的 讨论 ， 我 们 将 定义 一 个 传输 函数 ， 来 作 一 个 递归 竞争 层 所 做 的 


工作 : 
a = compet(n) (14.8) 


它 找到 最 大 净 输 入 的 神经 元 的 下 标 ， 并 将 其 输出 设置 为 1( 最 低下 标的 坤 经 元 的 将 受到 
束缚 ) 。 所 有 其 他 的 输出 都 设置 为 0。 
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l, i= i* 
a = | . . (其 中 n; n, Yi Hi” si, Yni = n;) (14.9) 
0, izi 


用 一 个 作用 于 第 一 层 的 竞争 传输 函数 代替 Hamming 网 络 的 递归 层 ， 将 简化 此 章 的 讨论 
(我 们 将 在 第 15 章 进 一 步 讨论 竞争 过 程 的 细节 )。 竞 争 层 如 图 14-2 所 示 .。 





a = compet (Wp) 


图 14-2 竞争 层 
正如 Hamming 网 络 那 样 ， 原 型 向 量 存储 于 W 和 矩阵 的 每 行 之 中 ， 净 输入 n 计算 输入 向 量 
p 种 原 每 个 原型 ,w 之 间 的 矩 离 ( 假 设 向 量规 格 化 长 度 为 工 )。 每 个 神经 元 i NPA n Ap 
与 原型 向 量 ,w 之 间 的 夹 角 0; REHE: 


iw? iw? p L?cos 6 
n = Wp = 2d p = 2 - L'eos 0 (14.10) 
sw? sw’p L?cos 0, 
竞争 传输 函数 对 权 值 向 量 与 输入 向 量 方向 最 为 接近 的 神经 元 的 输出 指定 为 1: 
a = compet( Wp) (14.11) 


要 试验 竞争 网 络 和 苹果 、 桶 子 分 类 问题 ， 请 用 Neural Network Design Demon- 
stration Competitive Classification (nnd14cc) 。 


1. 竞争 学 习 
我 们 现在 可 以 通过 把 W 算 阵 的 行 设置 为 理想 原型 向 量 值 而 设计 出 一 个 竞争 网 络 的 分 类 
器 。 然 而 ， 我 们 宁愿 有 一 个 学 习 规 则 ， 在 不 知道 原型 向 量 的 情况 下 用 来 训练 竞争 网 络 的 权 
值 。 其 中 一 个 这 样 的 学 习 规则 就 是 第 13 章 中 讨论 的 instar 规则 : 
iW(g) = iw(g - 1) + aa;(q) (p( g) - iw(g - 1)) (14.12) 
对 于 竞争 网 络 : a 只 对 竞争 获胜 神经 元 是 非 零 的 。 因 此 ， 能 够 从 Kohonen 规则 中 得 到 相 


me (q) = wg - D + alp(q) - jw - D) 
iIW(q) = ;wCq - 1) + a(p(g) - iw(a - 
= (1-2) ;w(q - 1) + ap(q) (14.13) 


而 
wg) = wg 1), tigi’ (14.14) 
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动 。 它 沿 着 权 值 矩阵 原 有 行 与 输入 向 量 之 间 的 连 线 移动 ， 如 图 14-3 所 示 。 





图 14-3 Kohonen 规则 的 图 示 
现在 用 图 14-4 的 6 个 向 量 来 演示 竞争 层 如 何 学 习 分 类 向 量 。6 个 向 量 为 ， 


- 0.1961 0.1961 0.9806 
Pi = , P- = 9 P3 = , 


0.9806 0.9806 0.1961 
(14.15) 
| 0.9806 | [0:582] [| 
Pa =| 0.196511? P571.09.81371' P 7|- 0.5812 147 


我 们 的 竞争 网 络 有 3 个 神经 元 ， 因 而 它 可 以 将 向 量 分 成 3 类。 下面 是 “随机 选择 的 规格 
化 初始 权 值 : 


iW 


0.7071 0.7071 - 1.0000 
w= | |, ww =| |. ww | |, W= ow! (14.16) 
— 0.7071 0.7071 0.0000 
aw 
数值 向 量 如 图 14-5 所 示 ， 其 中 权 值 向 量 用 箭头 表示 。 我 们 将 p 提交 给 网 络 ， 
Pi P2 


2W 
/( 7 P 
aW 
P4 
Pe jw 


Ps 





图 14-4 样本 输入 向 量 图 14-5 


0.7071 -0.7071 0.1961 
= = .7071 .7071 | | 
a= compet(Wp,) = compet}; 0.70 0.70 0.9806 

- 1.0000 0.0000 

0.8321 


0 
=| 1 
- 0.1961 0 


第 2 个 神经 元 的 权 值 向 量 与 p 最 接近 ， 因 而 它 竞争 获胜 (i* =2)， 且 输出 为 1。 现 在 应 


(14.17) 


- 0.5547 
- compet 
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用 Kohonen 学 习 规 则 ， 其 中 学 习 速 度 =0.5. 
old) 


new old 


= W° + alp, — 2W 
] [om | £0 (oe | SM 7 NM (14.18) 

0.7071 0.9806 0.7071 0.8438 

Kohonen 学 习 规 则 将 ,w 移 近 至 p, EWE 14-6 中 所 示 。 如 果 不 断 随机 选择 输入 向 量 并 
且 将 它们 输入 网 络 ， 那 么 每 次 选 代 与 输入 向 量 最 近 的 权 值 向 量 与 将 会 向 输入 问 量 移 动 。 最 终 
每 个 权 值 向 量 将 指向 输入 向 量 的 不 同 簇 。 每 个 权 值 向 量 会 变 成 不 同 的 徐 的 原型 向 量 。 

这 个 问题 是 足够 简单 的 ， 以 至 能 够 预计 哪个 权 值 向 量 将 指向 那个 簇 ,、 最 终 的 权 值 向 量 将 
会 如 图 14-7 中 所 示 。 

Pi P2 


;W 








IW 
图 14-6 图 14-7 最 终 的 权 值 图 14-8 


一 且 神 经 网 络 学 会 了 如 何 将 输入 向 量 分 类 ， 那 么 对 于 新 向 量 它 也 将 同样 分 类 ， 如 图 14-8 
所 示 。 阴 影 表 示 每 个 神经 元 将 作出 响应 的 区 域 。 竞 争 层 通 过 使 权 值 向 量 琉 接近 输入 向 量 p 的 
神经 元 的 输出 为 1 为 每 个 输入 向 量 p 指定 给 这 些 类 中 的 一 个 。 
试验 竟 争 学 习 请 使 用 Neural Network Design Demonstration Competitive Learning 
(nnd14cl) , 





2. 竞争 层 中 存在 的 问题 

竞争 网 络 能 够 进行 有 效 的 自 适 应 分 类 ， 但 它 仍 存 在 一 些 问 题 。 第 一 个 问题 就 是 学 习 速 度 的 
选择 使 得 不 得 不 在 学 习 速度 和 最 终 权 值 向 量 的 稳定 性 之 间 进 行 折衷 ( 见 图 14-9)。 一 个 接近 0 的 
学 习 速 度 意味 着 慢 速 的 学 习 。 然 而 ， 一旦 权 值 向 量 到 达 一 个 艇 的 中 心 ， 它 将 保持 在 中 心 附近 。 

相反 ， 接 近 1.0 的 学 习 速 度 将 导致 快速 学 习 。 A, 一旦 权 值 向 量 到 达 一 个 徐 ， 它 将 作 
为 它 所 代表 的 簇 中 的 不 同 向 量 来 回 振荡 ( 见 图 14-10)。 








稳定 不 稳定 
快 
慢 4 
A 
aso ai 
图 14-9 图 14-10 


有 时 这 种 在 快速 学 习 和 稳定 性 之 间 的 折 事 能够 带 来 好 处 。 初 始 训练 对 于 快速 学 习 可 以 用 
大 的 学 习 速 度 来 完成 。 然 后 学 习 速 度 可 以 随 着 训练 的 进程 而 逐步 减少 ， 以 达到 稳定 的 原型 向 
量 。 令 人 遗憾 的 是 如 果 网 络 需 不 断 的 对 输入 向 量 的 新 排列 作出 调整 的 话 ， 这 种 技术 就 不 起 作 
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HT. 

当 灸 彼此 很 靠近 的 时 候 ， 一 种 更 为 严重 的 稳定 性 问题 产生 了 。 在 特定 的 ' 青 况 下 ， 一 个 形 
成 蘑 复 原型 的 权 值 向 量 会 “侵入 " 另 一 个 权 值 向 量 的 领地 ， 从 而 破坏 目前 的 分 类 状况 。 

图 14-11 中 的 4 个 图 说 明了 这 个 问题 。 两 个 输入 向 量 (图 (a) 中 用 空心 圆圈 表示 ) 被 提交 
了 几 次 。 结 果 是 代表 中 间 和 右边 繁 的 权 值 向 量 移 向 了 右边 。 最 后 右边 簇 的 一 个 向 量 被 中 心 权 
值 向 量 重新 分 类 。 进 一 步 的 提交 向 量 使 中 间 向 量 移 向 右边 ， 直 到 它 “ 丢 失 ” 了 一 些 它 的 向 量 才 
BE, 这些 丢 失 的 向 量 成 为 左边 权 值 向 量 所 代表 的 类 的 一 部 分 。 


图 14-11 不 稳定 学 习 的 例子 


第 三 个 问题 是 有 时 一 个 神经 元 的 初始 权 值 向 量 离 输入 向 量 太 远 以 至 
于 它 从 未 在 竞争 中 获胜 ， 因 此 从 来 也 得 不 到 学 习 。 这 将 产生 一 个 毫 无 用 
处 的 “死神 经 元 。 例 如 图 14-12， 无 论 以 什么 次 序 把 向 量 提交 给 网 络 ， 
向 下 指 的 那个 权 值 向 量 永远 都 得 不 到 学 习 。 这 个 问题 的 一 个 解决 办 法 是 
给 每 个 神经 元 的 净 输 入 加 入 一 个 负 的 偏 置 值 。 每 次 那个 神经 元 竞争 获胜 
则 将 偏 置 值 减少 。 这 将 使 一 个 经 常 竞争 获胜 的 神经 元 获胜 的 机 会 减少 。 
这 种 机 制 有 时 叫做 “良心 “〈 见 习题 E14.4)。 

最 终 ， 一 个 竞争 层 有 多 少 个 神经 元 ， 就 能 够 有 多 少 个 类 。 这 对 于 某 些 应 用 将 无 法 适用 ， 
尤其 在 事先 并 不 知道 徐 的 个 数 的 时 候 。 此 外 ， 对 于 竞争 层 ， 每 个 类 在 输入 空间 之 中 都 含有 一 
个 凸 区 域 。 当 在 非 凸 区 域 或 类 是 由 不 连接 的 区 域 所 组 成 的 时 候 ， 竞 争 层 不 能 形成 类 。 

本 小 节 讨 论 的 一 些 问 题 将 由 特征 图 及 LVQ 网 络 解决 ， 这 些 将 在 本 章 的 后 一 部 分 讨论 ， 
而 自 适应 网 络 将 在 第 16 章 中 介绍 。 


14.2.3 生物 学 意义 上 的 竞争 层 OOOOO 
OQOOOO 


在 前 面 儿 章 我 们 未 曾 提 及 神经 元 在 一 层 之 内 是 如 何 组 织 的 (网 络 的 折 ”OO OO 
扑 结构 )。 在 生物 的 神经 网 络 中 ， 神 经 元 的 典型 情况 是 排列 成 二 维 层次 ， OOOOO 
它们 通过 横向 反馈 密集 地 联结 在 一 起 。 图 14-13 展示 了 以 二 维 网 格 形式 OOOO 


组 织 的 25 个 神经 元 。 





图 14-12 


通常 权 值 是 联结 的 神经 元 之 间 的 距离 的 函数 。 例 如 ，Hamming 图 14-13 
网 络 第 二 层 的 权 值 定义 如 下 : 
w; = 全 an (14.19) 
d —-&igj 


等 式 (14.20) 与 等 式 (14.9) 定 义 了 同样 的 值 ， 只 是 基于 神经 元 之 间 的 距离 d;。 


l, yo 0 
w. = | 7 (14.20) 
y - e, dij > 0 


图 14-14 展示 了 等 式 (14.20) 或 式 (14.19) 所 定义 的 权 值 。 每 个 神经 元 i 都 标 以 权 值 w;， 


14-9 











14-10 
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即 从 它 到 神经 元 j 的 权 值 。 神经 元 7 
加 强 中 心 /抑制 周围 ”加强 中 心 / 抑 制 周围 常 被 用 来 描述 如 下 神经 © 
元 之 间 的 一 种 联结 方式 :每 个 神经 元 加 强 自 身 (中 心 )， 并 且 同 时 抑制 © QO C9 
周围 的 神经 元 四 
这 是 生物 学 竞争 层 中 的 一 种 天 然 的 近似 。 在 生物 学 中 ,大 神经 元 
F 5 zx Ww o TL- Ea , 纪元 


不 仅 加 强 自己 ， 同 时 也 加 强 接近 它 的 那些 神经 元 。 一 般 情 况 下 ， 随 着 

神经 元 之 间 的 距离 增加 ， 从 加 强 到 抑制 的 转变 是 平滑 地 出 现 的 。 图 14-14 
墨西哥 草帽 函数 ”这 种 转变 见 图 14-15 中 的 左 图 。 这 是 一 种 将 神 

经 元 之 间 的 距离 与 连接 他 们 的 权 值 相 联 系 起 来 的 函数 。 那 些 相近 的 神经 元 提供 互相 加 强 的 连 

E, 并且 激励 的 幅度 随 着 距离 的 增加 而 降低 。 超 过 一 定 距离 ， 神 经 元 将 旺 现 一 种 抑制 性 联 

结 ， 并 且 抑 制 随 着 距离 的 增加 而 增加 。 因 为 这 个 函数 的 形状 ， 它 被 称 为 墨西哥 草帽 函数 。 图 

14-15 中 的 右 图 是 墨西哥 草帽 (加 强 中 心 / 抑 制 周围 ) 函数 的 一 个 二 维 图 示 ， 每 个 神经 元 ;都 

被 标 以 符号 及 表示 它 到 神经 元 / 的 权 值 的 相对 强度 wy。 


图 14-15 生物 学 上 的 加 强 中 心 / 抑 制 周围 层 


生物 竞争 系统 ， 除 了 在 加 强 中 心 /抑制 周围 的 联结 模式 下 ， 从 激励 区 域 到 抑制 区 域 的 转 
变 是 渐变 以 外 ， 还 是 一 种 相对 于 Hamming 网 络 的 “ 胜 者 全 得 "竞争 较为 弱 的 竞争 形式 。 生 物 
网 络 通常 不 是 单个 神经 元 (竞争 获胜 者 ) 活 路 ， 而 是 在 最 为 活 牙 的 神经 元 的 周围 有 活路 区。 这 
部 分 是 由 于 加 强 中 心 /抑制 周围 的 联结 方式 以 及 非 线 性 的 反馈 联结 引起 的 (参见 第 15 章 对 轮 
廓 线 增强 的 讨论 )。 


14.2.4 自 组 织 特征 图 


SOFM AH MR “为 了 模仿 生物 学 系统 的 活跃 区， 并 且 不 必 实现 非 线性 的 加 强 中 心 / 
抑制 周围 的 反馈 联结 ，Kohonen 作 了 如 下 的 简化 设计 。 他 的 自 组 织 特征 图 (SOFM) 网 络 首先 
使 用 竞争 层 所 用 的 同一 过 程 来 决 出 获胜 的 神经 元 i” ; 然后 ， 在 获胜 神经 元 周围 一 定 范围 内 
的 所 有 神经 元 的 权 值 向 量 用 Kohohen 规则 更 新 ， 

iwq) = iwlq 一 1) + a(p( q) 一 iW(q -= 1)) 


= (1 -a) iw(g - 1) + ap(g), i€ N, Cd) (14.21) 
HPR Ny (d) 包 含 所 有 落 在 以 获胜 神经 元 i* 为 中 心 、 半 径 为 d 的 所 有 神经 元 的 下 标 : 
N; (d) = Lj di; « di ] (14.22) 


当 向 量 p 被 提交 ， 获 胜 神经 元 的 权 值 和 其 邻 域内 的 神经 元 的 将 向 p 移动 。 结 果 是 多 次 提 
交 结 束 之 后 ， 邻 域内 的 神经 元 将 通过 学 习 而 拥有 彼此 相像 的 学 习 向 量 。 
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为 了 展示 邻 域 的 概念 ， 请 考虑 图 14-16 中 的 两 幅 图 。 左 边 的 图 说 明 围绕 神经 元 13、 半 径 
AL 的 二 维 邻 域 ; 右边 的 图 表示 半径 为 2 的 邻 域 。 
这 两 个 邻 域 的 定义 如 下 : 
Nis (1) = 18,12,13,14,18} (14.23) 
N13(2) = 13,7,8,9,11,12,13,14,15,17,18,19,23} (14.24) [14-12 
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图 14-16 领域 


我 们 必须 提 及 的 是 SOFM 中 的 神经 元 不 必 排 列 成 二 维 的 形式 ， 一 维 或 者 三 维 其 至 多 维 
的 排列 都 是 可 能 的 。 对 于 一 维 的 SOFM， 神 经 元 在 半径 为 1 时 只 有 2 个 邻 域 ( 当 该 神经 元 位 于 
线 之 端点 时 只 有 一 个 邻 域 )。 当 然 也 可 以 用 不 同 的 方法 来 定义 距离 ， 例 如 ，Kohonen 为 了 更 有 
效 地 实现 曾 建议 使 用 矩形 或 六 边 形 的 邻 域 。 神 经 网 络 的 性 能 对 邻 域 的 确切 形状 并 不 敏感 。 

现在 我 们 演示 SOFM 神经 网 络 是 如 何 工 作 的 。 图 14-17 表示 一 个 特征 图 以 及 其 神经 元 的 
二 维 拓扑 结构 。 
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图 14-17 自 组 织 特征 图 


图 14-18 展示 了 特征 图 的 初始 权 值 向 量 ， 每 个 三 元 素 权 值 一 - 
向 量 都 用 球体 上 的 一 个 点 表示 ( 权 值 已 经 规格 化 ， 都 能 够 落 在 N 
球面 之 上 )。 邻 域内 的 神经 元 都 用 线 连接 起 来 ， 因 而 可 以 看 到 
网 络 拓扑 结构 在 输入 空间 中 是 如 何 安排 的 。 

图 14-19 展示 了 一 个 球面 上 的 方形 区 域 。 我 们 将 从 这 个 区 
域 中 随机 抽取 向 量 ， 以 提交 给 特征 图 。 

每 当 一 个 向 量 被 提交 ,具有 最 近 权 值 向 量 的 那个 神经 元 -一 
将 竞争 获胜 。 获 胜 神经 元 及 其 邻 域内 的 神经 元 将 移动 它们 的 图 14-18 


14-13 
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权 值 向 量 从 而 离 输入 向 量 更 近 一 些 (并且 互 相 靠 近 )。 本 例 中 我 们 
使 用 的 邻 域 半径 为 1。 

权 值 向 量 有 两 个 趋势 : 首先 ， 它 们 随 着 更 多 的 输入 向 量 被 提 
交 而 分 布 到 整个 输入 空间 。 其 次 ， 它 们 移 向 邻 域内 的 神经 元 。 这 
两 个 趋势 共同 作用 使 神经 元 在 那 一 层 重 新 排列 ， 从 而 最 终 输入 空 
间 得 到 分 类 ，。 

图 14-20 所 示 的 一 系列 图 展示 了 25 个 的 神经 元 如 何在 活动 
的 输入 空间 内 展开 ,并 自 组 织 以 匹配 其 拓扑 结构 。 

在 这 个 例子 中 ,输入 向 量 以 等 概率 产生 于 输入 空间 的 任何 





D 
a 


图 14-20 BHR, KEAR 250 次 


位 置 .因此 ， 神 经 元 能 够 将 输入 空间 分 成 大 致 相等 的 区 域 。 
(14-14] 图 14-21 提供 了 更 多 的 关于 输入 区 域 及 自 组 织 之 后 的 结果 特征 图 的 例子 。 





图 14-21 特征 图 训练 的 其 他 例子 


有 时 特征 图 不 能 够 与 他 们 输入 空间 的 拓扑 结构 相 匹配 。 这 种 情况 通常 发 生 在 网 络 的 两 部 
分 与 输入 空间 的 独立 部 分 的 拓扑 结构 相 匹 配 ， 但 网 络 在 这 两 部 分 之 间 却 发 生 了 扭曲 ， 见 图 
14-22 中 的 例子 。 这 种 扭曲 现象 不 大 可 能 消除 ， 因 为 网 络 的 两 端 都 已 经 形成 对 不 同 区 域 的 稳 
定 的 分 类 。 


Bl qd x £N 295 








CITIES 


tt 
g 





CZI TTE] 
EE 

Wet 
SS Tt 














it 





图 14-22 带 扭曲 的 特征 图 

改进 特征 图 

到 目前 为 止 ， 我 们 仅仅 讨论 训练 特征 图 的 最 基本 算法 。 现 在 考虑 几 种 能 够 加 速 自 组 织 过 
程 并 且 使 它 更 加 可 靠 的 技术 。 

一 个 改进 自 组 织 图 的 方法 是 在 训练 过 程 中 改变 邻 域 的 大 小 。 开 始 ， 邻 域 的 半径 d 设置 
得 较 大 。 随 着 训练 的 进行 ，d 逐渐 减少 ， 直 到 最 终 只 包含 竞争 获胜 的 神经 元 。 这 种 方法 加 速 
自 组 织 并 且 极 不 可 能 在 网 络 中 造成 扭曲 。 

学 习 速 度 也 可 以 随时 间 而 改变 。 初 始 学 习 速 度 为 1 使 神经 元 能 够 很 快 地 学 习 提 供 的 向 
量 。 在 训练 过 程 中 ， 学 习 速 度 逐 渐 降 至 0， 于 是 学 习 变 得 稳定 了 。 (在 本 章 早 些 时 候 曾 讨论 
过 将 这 种 技术 用 于 竞争 层 。) 

另外 一 种 加 速 自 组 织 的 改进 是 使 竞争 获胜 的 神经 元 有 上 比 其 邻 域内 的 神经 元 更 大 的 学 习 速 
度 。 

最 终 ， 竞 争 层 和 特征 图 通常 使 用 另外 一 种 表达 式 作为 净 输 入 。 它 们 能 够 直接 计算 输入 向 
量 与 原型 向 量 之 间 的 距离 而 不 采用 计算 内 积 的 方法 。 这 种 利用 距离 的 方法 ,优点 在 于 输入 向 
量 不 必 规 格 化 。 这 种 改进 的 净 输 入 表达 式 将 在 下 一 节 的 LVQ 网 络 中 介绍 。 


试验 特征 图 请 使 用 Neural Network Design Demonstration 1-D Feature Maps 
(nndl4fm1) 和 2-D Feature Maps (nndl4fm2). l 





14.2.5 学 习 向 量 量化 


这 章 我 们 讨论 的 最 后 一 种 神经 网 络 是 学 习 向 量 量化 (LVQ) 网 络 ， 见 图 14-23 所 示 。 
LVQ 神经 网 络 是 一 种 混合 网 络 。 通 过 有 监督 及 无 监督 的 学 习 来 形成 分 类 。 

在 LVQ 网 络 中 ， 第 一 层 的 每 个 神经 元 都 指定 给 某 个 类 ， 常 常 几 个 神经 元 被 指定 给 同一 
类 。 每 类 再 被 指定 给 第 二 层 的 一 个 神经 元 。 第 一 层 神 经 元 的 个 数 $S!， 与 第 二 层 神经 元 的 个 
Xx S? 至 少 相 同 ， 并 且 通 常 要 大 一 些 。 

和 竞争 网 络 一 样 ，LVQ 网 络 的 第 一 层 的 每 个 神经 元 学 习 原 型 向 量 ， 它 可 以 对 输入 空间 
的 区 域 分 类 。 然 而 ， 不 是 通过 计算 内 积 得 到 输入 和 权 值 向 量 中 最 接近 者 ， 我 人 通过 直接 计算 
距离 的 方法 来 模拟 LVQ 网 络 。 直 接 计 算 距 离 的 一 个 优点 是 向 量 不 必 先 规格 化 ， 当 癌 量 规格 
ET, 无 论 是 采用 计算 内 积 的 方法 还 是 直接 计算 距离 ， 网 络 的 响应 将 是 相同 的 。 

LVO 网 络 的 第 一 层 的 净 输 入 是 


[14-15] 
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ni =- lw -pl (14.25) 
或 者 ， 用 向 量 形式 
lw - pl 
1 
n! low i pl (14.26) 
|s w -p 








n) = -llw! - pll a? = Wa! 
a! = compet (n!) 


图 14-23 LVQ 网 络 
LVQ 网 络 第 一 层 的 输出 是 ， 
a = compet(n') (14.27) 


因此 那 种 权 值 向 量 与 输入 向 量 最 为 接近 的 神经 元 的 输出 将 为 1， 而 其 他 神经 元 的 输出 为 0。 

FX 迄今 ，LVQ 网 络 与 竞争 网 络 的 特性 几乎 相同 (至 少 对 规格 化 向 量 )。 然 而 ， 其 解 
释 方面 有 区 别 。 对 于 竞争 网 络 ， 有 非 零 输 出 的 神经 元 表示 输入 向 量 属 于 那个 类 。 而 对 于 
LVO 网 络 ， 竞 争 获胜 的 神经 元 表示 的 是 一 个 子 类 而 非 一 个 类 。 一 个 类 可 能 由 几 个 不 同 的 神 
经 元 ( 子 类 ) 组 成 。 

LVQ 网 络 的 第 二 层 将 子 类 组 合成 一 个 类 。 这 是 通过 W 和 矩阵 来 实现 的 。W? 矩阵 的 列 代 
表 子 类 ， 而 行 则 代表 类 。W 的 每 列 仅 有 一 个 1， 其 他 元 素 都 设置 为 0。1 出 现 的 行 表明 这 个 
子 类 属于 那个 类 。 

(wi; 21) = FA i EX k 的 一 部 分 (14.28) 
这 种 将 子 类 组 合成 为 类 的 过 程 使 得 LVQ 网 络 产生 了 复杂 的 类 边界 . 一 个 标准 的 竞争 层 
uem 存在 局 限 ， 即 只 能 够 创造 凸 的 判定 区 域 。LVQ 网 络 克 服 了 这 个 局 限 。 

1.LVQ 学 习 

LVO 网 络 的 学 习 结合 了 竞争 学 习 和 有 监督 的 学 习 。 正 如 所 有 有 监督 的 学 习 算法 一 样 ， 
它 需 要 一 组 正确 网 络 行为 的 例子 : 

fp tts pastel ss pg ste! 

每 个 目标 向 量 除 了 一 个 是 1 以 外 必须 全 是 0。1 出 现 的 行 表示 输入 向 量 属于 那个 类 。 例 如 ， 
如 果 有 这 样 一 个 问题 ， 必 须 将 一 个 特别 的 三 元 素 向 量 归 类 人 四 个 类 中 的 第 二 类 ， 我 们 可 以 这 
样 表达 : 


lË X FF NA 297 








J1/2 0 
1 

Pi = 0 » t=] 9 (14.29) 
V1/2 0 


在 学 习 能 够 进行 之 前 ， 把 第 一 层 的 每 个 神经 元 指定 给 一 个 输出 神经 元 。 这 样 就 产生 了 甜 

EE W2z。 典 型 情况 下 ， 相 同 数量 的 隐藏 神 经 元 联结 到 每 个 输出 神经 元 ， 因 而 每 个 类 都 能 够 由 
相同 数量 的 凸 区 域 组 成 。W? 矩阵 的 所 有 元 素 都 设置 为 0， 除了 如 下 情况 : 

如 果 隐 含 神 经 元 i 是 指定 给 类 ,那么 设 wo = 1 (14.30) 


一 旦 定义 了 W: ， 它 将 不 会 再 改变 了 。 隐 藏 权 值 W 将 用 Kohonen 规则 的 一 个 变化 形式 
训练 。 

LVQ 学 习 规 则 以 如 下 方式 进行 。 在 每 次 迭代 过 程 ， 一 个 输入 向 量 p 被 提供 给 网 络 ， 并 
且 计算 每 个 原型 向 量 与 p 的 距离 。 隐 含 的 神经 元 进行 竞争 ， 神 经 元 i* 竞争 获胜 ，a 的 第 i 
个 元 素 被 设置 为 1。 接 着 a! SW 相 乘 从 而 得 到 最 终 输出 四， 也 是 只 有 一 个 非 零 元 素 k”, 


表明 p 是 指定 给 k* AN. 
Kohonen 规则 被 用 在 两 个 方面 以 改进 LVQ 网 络 的 隐 含 层 。 首 先 ， 如 果 p 分 类 正确 的 话 ， 


那么 获胜 的 隐 含 神经 元 向 p 移动 ; 
wg) = sw -1) a(p() -iwq - D), BUR abs = =1 (14.31) 


其 次 ， 如 果 p 被 不 正确 归 类 ， 那 么 我 们 知道 错误 的 隐 含 层 神经 元 竞争 获胜 ， 因 此 ， 移 动 
BH, w 远离 p: 

pw) = wg -1)-aplg) - sw -1), 如 果 o 2121: =0 (14.32 

结果 是 每 个 隐 含 神经 元 移 向 那些 落 人 形成 子 类 的 类 中 的 向 量 ， 而 远离 那些 落 人 其 他 类 中 


的 向 量 。 
让 我 们 看 一 个 LVQ 训练 的 例子 。 我 们 训练 LVQ 网 络 来 求解 如 下 分 类 问题 


一 1 1 2] 
id -| iu sli] xal = [ | e| || (14.33) 
正如 图 14-24 所 示 ， 开 始 为 每 个 输入 指定 目标 向 量 : 


«Eds epo ee 
«sel eeu) wa 


现在 必须 决定 选择 多 少子 类 来 组 成 这 两 个 类 中 的 每 一 类 。 如 果 让 每 个 类 是 两 个 子 类 的 联 
合 ， 那 么 隐 信 层 中 最 终 将 有 四 个 神经 元 。 输 出 层 的 权 值 矩阵 将 是 
1100 
0 0 1 | 
W HRS MATE 1 和 2 与 输出 神经 元 1 连结 起 来 ， 将 隐 含 神经 元 3 和 4 与 输出 神经 元 2 


W = | (14.36) 
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相连 。 每 个 类 都 将 由 2 个 凸 区 域 组 成 。 
W 的 行 向 量 最 初 被 设置 为 随机 值 ， 见 图 14-25。 定 义 类 1 的 两 个 隐 含 神经 元 的 权 值 用 
空心 圆 图 标记 ， 定 义 类 2 的 权 值 用 实心 圆圈 标记 。 这 些 权 值 是 


1 — 0.543 i ~ 0.969 | 0.997 1 0.456 
wW = ，2W = ，3W = ;4W = (14.37) 





0.840 - 0.249 0.094 0.954 
类 1 
pae oP 
pio ep; 
类 2 
图 14-24 图 14-25 


在 训练 过 程 中 的 每 次 选 代 ， 我 们 提供 一 个 输入 向 量 ， 找 出 其 响应 ， 然 后 调整 权 值 。 在 本 
TO 例 中 我 们 将 从 提交 p, 开始 。 











一 lw - Pp, 
一 |2aw -PB 
al = compet(n!) = compet i 
一 [aw — p, 
- |w - p 
- |(- 0.543 0.840]7 - [1 -1]7] 2.40 0 
E ， - |[- 0.969 -0.249] -[1- 71 | |. -2.11 || [0 
= compet! | -1[-0.9970.094]7 -[1 - 177] ||" PPP -1.09| 7| 1 
- [(— 0.456 0.954]? - (1 - 117] | - 2.03 0 
(14.38) 
第 三 个 隐 含 神经 元 的 权 值 向 量 与 p, 最近。 为 了 确定 这 个 神经 元 属于 哪个 类 ， Gal 5 
WwW AR: 
0 
gowa [21° 7/9 pe] TT 
0 O0 I ılji 1 
0 
这 个 输出 表明 p, 属于 类 2。 这 是 正确 的 ， 于 是 3w' 被 移 向 p, 而 更 新 。 
3w'(1) = 4w (0) + o(p, - 3w (0)) 
[0.557 o 1 | MAII 0.998 | (14.40) 
71lo.041 * ^"V.-11 10.0941] ^ L- 0.453 





图 14-26 中 的 左 图 表示 sw 在 第 一 次 选 代 之 后 的 更 新 状况 ， 右 图 表示 算法 收敛 之 后 的 权 值 。 
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图 14-26 中 的 右 图 也 指明 了 输入 空间 如 何 被 分 类 。 那 些 归 人 类 1 的 区 域 用 浅 灰 色 表 示 ， 








归 人 类 2 HK RAR KARA. 14-20 











图 14-26 在 第 一 次 迭代 和 多 次 迄 代 之 后 


2. 改进 的 LVQ 网 络 (LVQ2) 

上 面 讨论 的 LVQ 网 络 对 许多 问题 都 解决 得 较 好 ， 但 却 存 在 两 种 局 限 。 首 先 ， 与 竞争 层 
的 情况 一 样 ， 有 时 一 个 LVQ 网 络 的 隐 仿 神经 元 可 能 有 使 其 从 竞争 获胜 停止 下 来 的 初始 权 
值 。 结 果 就 是 造成 了 一 个 无 用 的 死神 经 元 。 这 个 问题 用 "良心 "机制 解决 ， 这 是 前 面 在 竞争 层 
就 已 讨论 过 的 技术 ， 并 请 参见 习题 14.4。 

其 次 ， 由 于 有 时 初始 向 量 的 排列 ， 在 取 某 些 初始 向 量 的 时 候 一 个 神经 元 的 权 值 向 量 不 得 
不 经 过 一 个 它 不 代表 的 类 的 区 域 以 到 达 它 所 代表 的 区 域 。 由 于 这 样 的 神经 元 的 权 值 将 被 它 必 
须 经 过 的 区 域内 的 向 量 排斥 ， 它 可 能 无 法 通过 ， 以 至 可 能 对 吸引 它 的 区 域 不 能 进行 正确 分 
类 。 这 个 问题 通常 通过 如 下 改变 Kohonen 规则 来 解决 。 

如 果 隐 含 层 中 的 获胜 神经 元 对 当前 的 输入 不 正确 地 归 类 ， 我 们 将 它 的 权 值 向 量 从 输入 向 
量 移 开 ， 正 如 以 前 所 做 的 那样 。 然 而 ， 我 们 也 调整 与 输入 向 量 最 接近 的 且 归 类 正确 神经 元 的 
权 值 。 这 种 第 二 个 神经 元 的 权 值 将 向 输入 向 量 移 近 。 

LVQ2 当 网 络 正确 地 分 类 一 种 输入 向 量 时 ， 只 有 一 个 神经 元 的 权 值 被 移 向 输入 向 量 。 
然而 如 果 输 入 向 量 被 错误 地 归 类 ， 两 个 神经 元 的 权 值 都 将 改变 ， 一 个 权 值 向 量 被 移 开 输入 向 
量 ， 另 一 个 被 移 向 输入 向 量 。 这 种 算法 就 是 LVQ2。 
试验 LVQ2 网 络 请 用 Neural Network Design Demonstration LVQ1 Networks 
(nndl4lv1) 和 LVQ2 Networks (nnd14lv2). 
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14.3 小 结 


ERE 
用 Kohonen 规则 进行 竞争 学 习 
Wg) = :wg -1) + a(p(¢) — wg - D) = (0-3) j* wq - 1) + op( 9) 
pwa) = waq-1), igi® 
其 中 i" 是 获胜 的 神经 元 。 
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输入 竞争 层 





特征 图 


00000 
(9 0 G0 6 (9 
(5 Q G6 
4 (O G3 9 €) 
Q GG 6»6 


a = compet(Wp) | 





用 Kohonen 规则 进行 自 组 织 
iwq) = ;w(q -1)+ap9) - iwlg - 1)) 
= (1- a) jw(q - 1) + ap(q) 
Ni(d) = ij,d; « di 


(i € N;(d)) 


LVQ Ri 





n) = -kw -pll a? = Wa! 
a! = compet (n!) 


(wi; = 1) 才子 类 i 是 类 8 的 一 部 分 
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用 Kohonen 规则 进行 LVQ 网 络 学 习 
pw) = wg -1) + a(plg) - ;i*wl(g - 1), Bait = t^ =1 
swg) = wg -lt+alplg) -vwl¢-D), Sai =l et =0 © 


14.4 例题 


P14.1 图 14-27 ERRUKI EIS JL, IT 14-28 中 竞争 网 络 钓 权 值 ， 使 得 它 
能 够 如 图 所 示 以 最 少 的 神经 元 数 分 类 向 量 。 


类 1 





图 14-27 例题 P14.1 RAM BE 
输入 竞争 层 





a = compet (Wp) 


图 14-28 ”例题 P14.1 的 竞争 网 络 


重 画 图 ， 使 之 表现 出 你 所 选择 的 权 值 和 隔离 每 个 类 区 域 的 判定 边界 。 
解 
因为 有 4 个 类 需要 定义 ， 因 而 竞争 层 需要 4 个 神经 元 。 每 个 神经 元 的 权 值 作 为 这 个 神经 
元 所 代表 的 类 的 原型 。 因 此 ， 对 每 个 神经 元 我 们 将 选择 大 致 位 于 一 个 类 中 心 的 原型 向 量 。 
3&1, 2, 3 近似 集中 在 以 45° 角 为 倍数 的 位 置 。 假 定 以 下 三 个 向 量 已 经 规格 化 (正如 竞争 
网 络 所 需要 的 那样 ) 并 且 指 向 正确 的 方向 。 


Nd M | 1/42 | 
1W = , 2W = , 3W = 
1/42 1/42 - 1/42 


第 4 簇 的 中 心 离 纵 轴 的 距离 大 致 是 离 模 轴 距 离 的 2 倍 。 结 果 规 格 化 的 权 值 向 量 是 


2/45 | 
4W = 
- 42 


BS EMAAR Ee BR i E GAEE : 
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iw! -1/42 1742 

w WT E 1//2 | 1/42 
pw] | w£Ao - 1/2 
yw" -2/45 -1⁄5 


我 们 用 箭头 画 出 这 些 权 值 向 量 ， 并 且 等 分 相 邻 的 权 值 向 量 之 间 的 弧 以 得 到 各 个 类 的 区 
域 ， 这 就 是 图 14-29。 


图 14-29 ”例题 P14.1 的 最 终 分 类 结果 


P14.2 图 14-30 表示 一 个 由 3 个 神经 元 组 成 的 竞争 网 络 层 的 三 个 输入 向 量 及 三 个 初始 权 
值 向 量 。 以 下 是 权 值 输入 向 量 : 


-1 0 1/42 
"=| ol TIHE -| | 
三 个 权 值 向 量 的 初始 值 是 


0 - 2/45 -1/5 
IE | | od 





图 14-30 例题 P14.2 的 输 人 向 量 及 初始 权 值 向 量 
计算 用 Kohonen 规则 训练 竞争 网 络 的 结果 权 值 ， 其 中 学 习 速 度 a=0.5， 以 下 述 序 列 作 


为 输入 : 
Pi > P2° P: Pi > P2> P3 
s 
首先 我 们 用 权 值 向 量 组 成 权 值 矩 阵 
0 -1 
W=] -2/45 1/45 
-~- 1/VS 2/48 


然后 ， 提 交 第 一 个 向 量 pi : 
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0 -1 0 0 
-1 
a = compet(Wp,) = compet|| - 2/45 1/45 | | - compet ows ||- H 
-1/45 2/45 0.447 0 


第 二 个 神经 元 响应 ， 因 为 ?w 离 p, 最 近 ， 因 此 ， 我 们 用 Kohonen 规则 更 新 2w: 
new _ old oldy _ 一 2/45 | -1 | 一 2/45 B - 0.947 
jW"" = ow’? + a(p, - 2w"^) = | 1/45 | + z ol^ Ls *| 9.224 


图 14-31 显示 新 的 2w 向 p, 移 近 了 。 


p» e P3 
oL\ 
Pi C 
iW 
图 14-31 
现在 对 p, 重复 上 述 过 程 。 14-26 
0 1 -1 0 
a = compet(Wp,) = compet|| ~ 0.947 0.224 [°] = compet - = | 
-1/45 2/45 0.894 | 1. 





第 三 个 神经 元 获胜 ， 因 而 其 权 值 移 近 p. : 


"EN ay | VANS [°] -1/45 | | | -0.224 
3W™” = w^ TA 40.5 as »/[3 -| 2 


现在 提交 p: 
— 0.707 0 
0.512 1 
第 三 个 神经 元 再 次 获胜 : 


new Low of wit) - [- 0.224 | 1/42 0.224 | . [0.2577] 
iW 二 3 TOD-3 二 0.947 +0. VB 0.9 = 0.8272 

再 将 p, 至 p, 提交 后 ， 神 经 元 2 将 会 再 获胜 一 次 ， 而 神经 元 3 会 Pr ww 
获胜 三 次 。 最 终 的 权 值 是 : 


-1 
9 1/42 
-0.947 0.224 
-0.224 0.947 |L V 2 





- compet - 








a = compet(Wp,) = com 








0 -1 
w 
W =| -0.947 0.118 Pi — 
0.414 0.8103 


最 终 的 权 值 见 图 14-32. 
注意 w 几乎 学 会 了 p,， 而 3w 指向 p 与 ps 之 间 。 另 一 个 权 值 向 iW 
Ew 从 来 没有 被 更 新 。 第 一 个 神经 元 ， 因 从 未 在 竞争 中 获胜 而 成 为 图 14-32 
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一 个 死神 经 元 。 
P14.3 考虑 图 14-33 中 所 示 的 输入 向 量 及 初始 权 值 。 用 Kohonen 规则 训练 竞争 网 络 ， 使 
1427] 这 些 向 量 分 类 成 秘 ， 其 中 学 习 速 度 = 0.5。 当 每 个 输入 向 量 都 提交 一 次 之 后 ( 按 所 示 顺 序 进 
行 )， 在 图 上 找 出 权 值 的 位 置 。 





PB 


图 14-33 ”例题 P14.3 的 输入 向 量 和 初始 权 值 


解 
这 个 问题 可 以 不 用 计算 而 通过 作 图 的 方法 解决 ， 结 果 见 图 14-34。 





图 14-34 ”例题 P14.3 的 解答 


输入 向 量 p 首先 被 提交 ， 权 值 向 量 ,w 离 p 最近 ， 因 而 神经 元 1 竞争 获胜 而 且 1w p, 移 近 

7428| 一 半 距 离 ( 因 为 a=0.5)。 然 后 ，p, 被 提交 ， 神 经 元 1 再 次 获胜 ，iw 再 向 p 移 近 一 半 距 离 。 
在 前 两 次 迭代 中 ，2w 没有 改变 。 

第 三 次 选 代 p, 被 提交 。 这 次 ?w 竞争 获胜 并 向 p, 移 近 一 半 距 离 。 第 四 次 迁 代 p, 被 提交 ， 
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神经 元 2 再 次 获胜 ， 权 值 向 量 ;w 向 p, 移 近 一 半 距 离 。 
如 果 我 们 继续 训练 这 个 网 络 ， 神 经 元 1 将 会 归 类 输入 向 量 p, 及 p,， 神 经 元 2 归 类 输入 
向 量 p 及 p,。 如 果 提交 输入 向 量 的 顺序 不 同 ， 最 后 的 分 类 结果 是 否 也 会 不 同 ? 
P14.4 本 章 所 讨论 的 安排 神经 元 的 特征 图 都 仅 限于 二 维 。 图 14-35 所 示 的 特征 图 由 9 个 
排 成 一 维 的 神经 元 组 成 。 
输入 特征 图 





í Vf \ 特征 图 

‘ © \ 

© 

© 

e 

© 

© 

© 
a = compet (Wp) OO 7 


图 14-35 9 个 神经 元 的 特征 图 


根据 如 下 的 初始 权 值 ， 画 一 权 值 向 量 图 ， 并 且 将 邻 域 神经 元 的 权 值 用 线 连 接 起 来 。 
0.41 0.45 0.41 0 0 0 -0.41 -0.45 -0.41]7 
W=/0.41 0 -0.41 0.45 0 -0.45 0.41 0 - 0.41 
0.82 0.89 0.82 0.89 1 0.89 0.82 0.89 0.82 
用 如 下 向 量 迭代 一 次 来 训练 特征 图 ， 其 中 学 习 速 度 = 0.1， 邻 域 半 径 为 1。 重 画 对 新 权 








值 矩阵 的 图 。 [1429] 
0.67 
p =| 0.07 
0.74 
解 


原始 权 值 的 特征 图 见 图 14-36。 





图 14-36 原始 特征 图 
对 网 络 提交 p 而 开始 更 新 网 络 。 


a= compet( Wp) 
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0.41 0.45 0.41 0 0 0 -0.41 -0.45 -0.41 0.67 
= compet|| 0.41 0 -0.41 0.45 0 -0.45 0.41 0 - 0.41 0.07 
0.82 0.89 0.82 0.89 1 0.89 0.82 0.89 0.82 0.74 


compet ([0.91 0.96 0.85 0.70 0.74 0.63 0.36 0.36 0.3]7) 
(01000000 0]7 

第 二 个 神经 元 竞争 获胜 。 从 网 络 图 示 中 可 见 ， 第 二 个 神经 元 的 邻 域 (半径 为 1) 包 括 神经 
1430) 元 1 和 3 。 我 们 必须 用 Kohonen 规则 来 更 新 这 些 权 值 。 














. 0.41 0.67 0.41 : 0.43 
iw(1) = iw(0) + a(p 一 :w(0)) = | 0.41 0.07 | - E: z|0.37 
0.82 0.74 0.82 0.81 


0.45 0.67 0.45 0.47 
SO = w(0) 十 a(p - 2w(0)) = 0 +0.1 0.07 0.01 
0.89 0.74 0.89 0.88 


0.41 0.67 0.41 0.43 
-0.41 | «0.1]| 0.07 | -| - 0.41 - 0.36 
0.82 0.74 0.82 


图 14-37 展示 了 权 值 更 新 之 后 的 特征 图 。 


3W(1) = 3w(0) +a(p - 3w(0)) = 








一 -~ 一 


图 14-37 更 新 后 的 特征 图 
P14.5 给 定 图 14-38 所 示 的 LVQ 网 络 以 及 如 下 权 值 ， 画 出 构成 每 个 类 的 输入 空间 的 区 域 。 


输入 竞争 层 线性 层 





ni= -lwi-pll a? = Wa! 
al = compet (n!) 
图 14-38 例题 P14.5 的 LVQ 网 络 
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解 
我 们 根据 W 中 第 i 列 的 相应 非 零 元 素 的 下 标 来 标记 W 中 的 每 个 向 量 ;w， 由 此 作出 
图 14-39, 


图 14-39 用 类 标记 的 原型 向 量 
分 隔 每 个 类 的 判定 边界 ， 通 过 在 每 对 原型 向 量 之 间 画 连接 线 而 得 到 ， 这 些 连接 线 与 一 
条 假想 的 连接 原型 向 量 的 线 正 交 ， 并 且 与 每 个 向 量 的 距离 相等 。 
在 图 14-40 中 ， 每 个 凸 区 域 按 其 最 接近 的 权 值 向 量 着 色 。 








图 14-40 类 区 域 以 及 判定 边界 14-32 


P14.6 设计 一 个 LVQ 网 络 求解 图 14-41 中 所 示 的 分 类 问题 。 图 中 的 向 量 将 根据 其 颜色 
而 归 人 三 类 之 一 。 


4 
o A. bd 
ooo ape eeo 
o t e. 


图 14-41 分 类 问题 
当 设 计 完成 时 ， 画 图 表示 每 个 类 的 区 域 。 
解 
首先 ， 我 们 注意 到 因为 LVQ 网 络 直 接 计算 向 量 之 间 的 距离 ， 而 不 是 采用 内 积 ， 所 以 它 
能 够 区 分 未 经 规格 化 的 向 量 ， 如 上 所 示 。 
接 下 来 为 每 种 颜色 指定 一 个 类 : 
。 所 有 白色 点 属于 类 1 


— 


. 


Uu 
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。 所 有 灰色 点 属于 类 2 

。 所 有 黑色 点 属于 类 3 

现在 选择 LVO 网 络 的 维 数 。 因 为 有 3 个 类 ， 因 而 网 络 的 输入 层 必 有 3 个 神经 元 ; 有 9 
TTXI), AMERRE A 9 个 神经 元 。 这 样 就 得 到 图 14-42 所 示 的 网 络 。 





n! = -ll;w! - pil a? = Wa! 
al = compet (n!) 


图 14-42 例题 P14.6 的 LVQ 网 络 


我 们 可 以 通过 使 每 行 等 于 一 个 簇 的 转 置 原型 向 量 来 设计 权 值 矩 阵 Wi'。 选 取 每 个 簇 正中 
央 的 原型 向 量 ， 得 到 如 下 结果 : 
-1 01 -101-1 0 117 
1 11 0 00 -1 -1 -1 

现在 第 一 层 的 每 一 个 神经 元 将 对 不 同 的 簇 作出 响应 。 

接 下 来 选择 Wi ， 使 得 每 个 子 类 都 与 正确 的 类 相连 。 为 此 ， 使 用 如 下 规则 : 

如 果子 类 i 是 属于 类 kk， WS w% = 1 

例如 ， 第 一 个 子 类 是 向 量 图 中 左上 方 的 那个 徐 。 这 个 簇 的 向 量 是 白色 的 ， 因 而 它们 属 子 
第 一 类 。 所 以 我 们 应 设置 w1 lo 

一 旦 设置 好 所 有 的 9 类 ， 就 得 到 如 下 结果 : 


wW = 








100001010 
Wiz101 0010100 
001100001 
可 以 通过 提交 向 量 来 测试 网 络 。 这 里 以 p=[1 0]7 来 计算 第 一 层 的 输出 : 

_ 4/5 0 

- 42 0 

-1 0 

-2 0 

al = compet(n') = compet|| - 1 ||2| 0 

0 1 

- 4/5 0 

- 42 0 

0 
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结果 网 络 指出 我 们 所 提供 的 向 量 属 子 第 6 子 类 。 再 看 第 二 层 网 络 的 结果 : [14-34] 
[0] 
0 
0 
10000101 0 0 1 
Zu 1001010 j 0 日 
001100001 1 0 








| 0 
0 4 
第 二 层 网 络 指出 向 量 属于 类 1， 与 事实 相符 。 类 区 域 和 判定 边界 如 图 14-43 所 示 。 


图 14-43 ”类 区 域 和 判定 边界 


P14.7 竞争 层 和 特征 图 都 要 求 向 量 是 规格 化 的 。 如 果 所 用 数据 是 非 规 格 化 的 ， 则 结果 
如 何 ? 

处 理 这 种 数据 的 一 种 方法 就 是 在 将 向 量 提 交 给 网 络 之 前 先进 行规 格 化 。 但 这 样 做 的 缺点 
是 向 量 大 小 的 信息 (有 时 是 很 重要 的 ) 丢 失 了 。 - 

另外 一 种 解决 方法 是 把 通常 用 来 计算 净 输 入 的 内 积 表达 式 

a = compet( Wp) 
改 为 直接 计算 距离 
nj =- | WwW- p| 和 a = compet(n) 

正如 LVO 网 络 所 做 的 那样 。 这 种 方法 有 效 且 保留 了 向 量 大 小 的 信息 。 

然而 ， 还 有 第 三 种 解决 方法 ， 就 是 在 规格 化 之 前 给 每 个 输入 向 量 附 加 一 个 常量 1， 那 么 
在 附加 元 素 1 后 改变 向 量 将 保留 大 小 信息 。 

用 第 三 种 方法 规格 化 以 下 向 量 : 


解 
首先 我 们 给 每 个 向 量 增 加 一 个 元 素 1: 


1 
P; 21 
1 


然后 规格 化 每 个 向 量 : 
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| 
Du 


























0 
0 
1 


[1436] 现在 每 个 向 量 的 第 3 个 元 素 包 含 了 大 小 信息 ， 因 为 它 — 
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14.5 结束语 


本 章 我 们 讲解 了 第 13 章 介 绍 的 联想 instar 学 习 规 则 如 何 与 竞争 网 络 相 结合 ， 与 第 3 章 
中 的 Hamming 网 络 相 同 ， 产 生 了 强 有 力 的 自 组 织 网 络 。 由 于 竞争 和 instar 规则 的 结合 ， 使 
得 任何 由 神经 网 络 学 习 的 原型 向 量 成 为 某 个 特定 输入 向 量 类 的 代表 。 这 样 竞争 网 络 通 过 学 习 
将 输入 空间 分 成 不 同 的 类 。 每 个 类 都 由 一 个 原型 向 量 ( 权 值 矩 阵 的 行 ) 所 代表 。 

本 章 讨论 了 三 种 由 Tuevo Kohonen 提出 的 神经 网 络 。 第 一 种 是 标准 的 竞争 层 网 络 ， 它 简 
单 的 操作 使 得 它 成 为 解决 许多 问题 的 有 效 网 络 。 

自 组 织 特征 图 与 竞争 层 网 络 非常 相似 ,但 更 接近 于 生物 学 中 的 加 强 中 心 /抑制 周围 的 网 
络 ， 结 果 使 得 网 络 不 仅 能 够 学 习 分 类 输 人 向 量 ， 还 能 学 习 输入 空间 的 拓扑 结构 。 

第 三 种 网 络 LVQ 网 络 ， 使 用 了 有 监督 及 无 监督 的 学 习 来 识别 徐 。 它 通过 第 二 层 将 多 个 
凸 区 域 组 合成 可 以 有 任何 形状 的 类 。LYVQ 网 络 能 够 通过 训练 来 识别 由 多 个 不 联结 的 区 域 构 
成 的 类 。 

第 15 章 与 第 16 章 将 以 本 章 所 讲述 的 神经 网 络 为 基础 。 例 如 ， 第 15 章 将 更 为 详细 地 讨 
论 横向 抑制 、 加 强 中 心 / 抑 制 周 围 网 络 以 及 这 些 网 络 的 生物 学 基础 。 第 16 章 将 讨论 标准 竞争 
网 络 的 一 种 改进 ( 称 为 自 适应 谐振 理论 ) ， 这 个 理论 解决 了 本 章 所 讨论 的 权 值 稳定 性 问题 。 
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这 套 两 卷 集 著作 是 神经 网 络 的 经 典 文 献 。 第 一 卷 中 有 一 章 描述 竞 名 层 以 及 它们 如 
何 进行 特征 检测 的 过 程 。 


习题 
E14.1 假设 Hamming 网 络 第 二 层 的 权 值 和 矩阵 如 下 : 


3 3 

1 -4 -4 

2 3 3 

Wej-p 1 -3 
3 3 

-4 -4 ! 


这 个 矩阵 不 符合 式 (14.6) 的 条 件 ， 因 为 
3 1 1 
© 478-172 
请 给 出 第 一 层 的 一 个 输出 ， 使 得 第 二 层 不 能 够 正常 操作 。 
E14.2 考虑 图 14-44 中 所 示 的 输入 向 量 及 初始 权 值 


p4 Pi 
\ | 


P2— — P3 
yw 
/ > 


IW 





图 14-44 $e 


(i) 画 出 一 个 竞争 网 络 图 ， 该 网 络 能 够 将 上 图 所 示 数 据 分 类 ， 从 而 使 三 入 向 量 
都 有 自己 的 类 。 

Ci) 使 用 所 提供 的 初始 权 值 以 图 形 方法 训练 网 络 ， 带 标号 的 向 量 以 p ps ps. 
p, 的 顺序 提交 。 回 想 如 果 多 个 神经 元 有 相同 的 输出 ， 则 竞争 传输 函数 选择 
有 最 小 下 标的 那个 神经 元 。 图 14-3 以 图 形 方法 介绍 了 Kohonen 规则 。 

(ii) 重 画 图 14-1 中 的 图 形 ， 在 其 中 显示 你 得 到 的 最 后 权 值 向 量 ， 以 及 代表 一 个 
类 的 每 一 区 域 之 间 的 判定 边界 。 

E14.3 利用 下 述 输入 模式 训练 竞争 网 络 : 


ne 


(i) 使 用 Kohonen 学 习 规 则 ， 其 中 a2 0.5, 将 输入 模式 训练 一 遍 ( 即 每 个 输入 
按 给 定 顺序 提交 一 次 )， 图 示 结 果 。 假 设 初 使 权 值 矩阵 为 
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5 al 

W = 

0 42 
(ii) 训练 一 遍 输 入 模式 之 后 ， 模 式 如 何 聚 集 ? ( 即 哪些 输入 模式 被 归 人 同一 类 

中 ?) 如 果 输 入 模式 以 不 同 顺序 提交 ， 结 果 会 改变 吗 ?” 解释 其 原因 。 

(iii) 用 w=0.25 重复 (i)。 这 种 改变 对 训练 有 何 影响 ? 

E14.4 在 本 章 前 面 我 们 曾 用 “良心 "来 指 一 种 技术 ， 用 以 避免 困扰 竞争 层 网 络 和 LV Q 网 
络 的 死神 经 元 问题 。 
离 输入 向 量 太 远 以 致 无 法 竞争 获胜 的 神经 元 ， 能 够 通过 调整 偏 置 值 使 神经 元 每 
竞争 获胜 一 次 就 增加 负 偏 置 值 ， 从 而 得 到 获胜 的 机 会 。 其 结果 是 常 获胜 的 神经 
元 开始 出 现 “ 负 次 " 感 ， 直 到 其 他 神经 元 得 到 获胜 的 机 会 。 
图 14-45 展示 了 一 个 具有 偏 置 值 的 竞争 网 络 。 一 个 典型 的 对 神经 元 i 的 偏 置 值 5; 
的 学 习 规则 是 





yes MN igi” 


p 0.2, i= i* 





a=compet(Wp+b) 


图 14-45 有 偏 置 值 的 竞争 层 网 络 


(i) 检验 图 14-46 中 的 向 量 ， 是 否 存在 一 种 提交 向 量 的 次 序 使 得 ,w 能 够 竞争 获 
胜 并 且 向 其 中 一 个 向 量 移 近 ? (注意 ; 假设 不 使 用 自 适应 偏 置 值 。) 





图 14-46 输入 向 量 和 死神 经 元 


Cii) 给 出 如 下 的 输入 向 量 、 初 始 权 值 以 及 偏 置 值 ， 计 算 权 信 (用 Kohonen 规则 ) 及 
偏 置 值 (用 上 述 偏 置 值 规则 )。 重 复 如 下 所 示 序 列 ， 直 至 神经 元 1 竞争 获胜 : 
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n [^] 1/42 
Blot Zap 571555 


0 - 2/45 ~ 1/45 
[S m ETAT n EZSI 
-1 -1/45 -2/45 


输入 向 量 的 顺序 : po py, Dj: Pe Pe Py» 77 
(iii) 在 ;w 竞争 获胜 之 前 共 提 交 多 少 次 ? 
E14.5 LVQ 网 络 的 净 输 入 表达 式 是 直接 计算 输入 向 量 与 每 个 权 值 向 量 之 间 的 距离 ， 而 
不 是 使 用 内 积 。 因 而 LVQ 网 络 不 需要 规格 化 的 输入 向 量 。 这 种 技术 也 可 以 用 于 
使 竞争 层 网 络 分 类 非 规格 化 的 向 量 。 这 样 的 网 络 请 见 图 14-47。 
输入 竞争 层 





ni = - lw! -pll 
a! = compet (n!) 


图 14-47” 蔡 换 为 净 输 人 表达 式 的 竞争 层 网 络 
使 用 这 种 技术 对 如 下 非 规格 化 的 向 量 训练 一 个 2 神经 元 竞争 层 网 络 ， 其 中 学 习 速 


FF a=0.5, 

1 -1 -2 
THE p= | 2 | » -| -| 
以 如 下 顺序 提交 向 量 ， 

网 络 的 初始 权 值 为 


p: B> P5 Pe P 


Pi 


--[]. -L 


E14.6 证 明 图 14-47 所 示 改 进 的 竞争 网 络 (直接 计算 距离 ) 与 标准 的 竞争 网 络 (使 用 内 积 
且 输 入 向 量 是 规格 化 的 ) 产 生 同 样 的 结果 。 

E14.7 我 们 希望 得 到 一 个 分 类 器 ， 能 够 将 如 下 定义 的 方形 区 域 分 成 16 个 面积 大 致 相等 
的 类 : 


Ozp,xl 2<p, <3 
Ci) 使 用 MATLAB 在 上 述 区 域内 随机 产生 200 个 向 量 。 
(ii) 写 一 个 MATLAB 的 M- 文 件 ， 用 Kohonen 学 习 来 实现 一 个 竞争 层 网 络 。 用 
直接 计算 输入 向 量 与 权 值 向 量 之 间 的 距离 来 计算 净 输 入 ， 正 如 LVQ 网 络 
所 做 的 那样 ， 因 此 向 量 不 必 规 格 化 。 用 M- 文 件 训 练 竞争 层 网 络 以 分 类 200 
个 向 量 。 试 用 不 同 的 学 习 速 度 并 比较 性 能 。 
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(iii) 写 一 个 MATLAB 的 M- 文 件 以 实现 4 神经 元 x4 神 经 元 (二 维 ) 的 特征 图 。 使 用 
特征 图 来 分 类 相同 的 向 量 。 使 用 不 同 的 学 习 速 度 和 邻 域 大 小 ， 并 比较 性 能 。 
E14.8 我 们 想 要 一 个 可 以 将 下 述 定义 的 输入 空间 的 区 间 分 成 5 个 类 的 分 类 器 : 
Ospas! 
(i) RH MATLAB 随机 产生 在 上 述 区 间 均 匀 分 布 的 100 个 随机 值 。 
(ii) 平方 每 个 值 使 分 布 变 成 不 均匀 的 。 
(iii) 写 一 个 MATLAB 的 M- 文 件 实现 一 个 竞争 层 网 络 ， 对 于 平方 后 的 值 ， 用 M 
-文件 训练 一 个 $ 个 神经 元 的 竞争 层 网 络 ， 直 到 权 值 完全 稳定 。 
(iv) 竞争 层 的 权 值 是 如 何 分 布 的 ?是 否 与 权 值 如 何 分 布 和 输入 值 的 平方 如 何 分 
布 有 关 ? 
E14.9 LVQ 网 络 有 如 下 权 值 ; 


0 
1 0 1 0 
WI=|-1 0 |, wel 1 
1 0 0 
0 -1 
(i) LVO 网 络 有 多 少 个 类 和 多少 个 子 类 ? 
(ii) 画图 展示 第 一 层 权 值 向 量 以 及 将 输入 空间 分 成 子 类 的 判定 边界 。 


(ii) 在 每 个 子 类 区 域 上 标明 它 所 属 的 类 。 
E14.10 我 们 希望 得 到 能 够 将 下 述 向 量 按 所 示 的 类 分 类 的 LVO MH: 
-1 -1 
Hi) 
-1 1 


of e] m 


1 -1 -1pl-1 1 
-1] L-1 1 1 -1 
Ci) LVQ 网 络 的 每 一 层 各 需要 多 少 个 神经 元 ? 
(ii) 确定 第 一 层 的 权 值 。 
(iii) 确定 第 二 层 的 权 值 。 
(iv) 至 少 用 每 个 类 的 一 个 向 量 测试 你 的 网 络 。 
E14.11 我 们 希望 得 到 能 够 将 下 述 向 量 按 所 示 的 类 分 类 的 LV Q 网 络 : 


xul -| | = ll] xm = [y] -L]] 


(i) 这 种 分 类 问题 是 否 能 够 通过 感知 机 解决 ? 解释 你 的 答案 。 

(i) 在 这 种 能 够 分 类 上 述 数 据 的 LVQ 网 络 之 中 ， 每 一 层 需要 有 多少 神经 元 ? 
假设 每 个 类 都 由 2 个 凸 形 子 类 组 成 。 

(iii) 确定 这 个 网 络 的 第 二 层 的 权 值 。 

Civ) 将 网 络 第 一 层 的 权 值 全 部 初始 化 为 零 ， 并 对 下 列 向 量 计 算 用 Kohonen 规 
则 学 习 ( 学 习 速度 a = 0.5) 时 权 值 的 变化 : 

p; b: P5 P^ B 
Cv) 画图 表示 输入 向 量 、 最 终 权 值 向 量 和 两 个 类 之 间 的 判定 边界 。 
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15.1 HB 


本 章 我 们 将 继续 讨论 第 13 章 和 第 14 章 中 的 联想 学 习 算法 和 竞争 学 习 算 法。 本 章 介绍 的 
Grossberg 网 络 是 一 种 自 组 织 连续 的 竞争 网 络 。 这 将 是 我 们 第 一 次 讨论 连续 递归 网 络 ， 并 且 
将 引入 一 些 概念 ， 这 些 概念 在 第 17 章 和 第 18 章 要 作 进 一 步 的 讨论 。Grossberg 网 络 也 是 在 
第 16 章 将 要 讨论 的 自 适 应 谐振 理论 (ART) 网 络 的 基础 。 

我 们 将 从 讨论 Grossberg 网 络 的 生物 学 启发 ( 即 人 的 视 党 系统 ) 开 始 。 尽 管 我 们 不 能 全 面 
RAMTEC TAA, {E Grossberg 网 络 受 生物 学 影响 如 此 之 深 ， 如 果 不 把 它 放 在 生物 学 的 
背景 下 将 很 难 进行 讨论 。 注 意 生物 学 为 人 工 神 经 网 络 提供 了 最 初 的 启示 是 很 重要 的 ， 并 且 应 
该 继续 从 中 寻求 启示 ， 因 为 科学 家 对 脑 的 功能 不 断 有 新 的 发 现 。 


15.2 理论 和 实例 


在 20 世纪 60 年 代 晚 期 和 70 年代 ,研究 神经 网 络 的 人 数 急 剧 地 减少 。 但 是 仍 有 一 批 研 
究 人 员 继 续 在 这 个 领域 工作 ， 其 中 特别 包括 Tuevo Kohonen , James Anderson, Kunihiko 
Fukushima 和 Shun - ichi Amari。 最 富 于 创造 性 的 一 人 就 是 Stephen Grossberg, 

Grossberg 从 60 年 代 早 期 起 就 一 直 活 牙 在 神经 网 络 研究 领域 ， 并 取得 丰硕 成 果 。 他 的 工 
作 的 特点 是 使 用 非 线 性 数学 来 模拟 思维 和 脑 的 特定 功能 ， 并 且 他 所 取得 的 大 量 成 果 与 对 脑 任 
务 的 了 解 程度 是 一 致 的 。 他 的 论文 题目 ， 涉 及 从 神经 网 络 如 何在 视觉 中 提供 对 比 增强 之 类 的 
特殊 领域 ， 到 人 类 记忆 的 普遍 理论 这 样 一般 性 的 主题 。 

部 分 由 于 他 的 成 就 的 高 度 使 他 的 工作 享有 ”“ 难 "的 名 声 。 每 一 篇 新 的 论文 都 是 建立 在 过 去 
30 年 研究 的 基础 之 上 ， 因 而 很 难 去 衡量 其 价值 。 此 外 ， 他 用 的 术语 是 自 成 体系 的 ， 与 其 他 
研究 人 员 使 用 的 不 同 。 他 的 工作 也 以 高 难度 的 数学 以 及 神经 生理 学 的 复杂 性 为 特点 。 他 受 
Helmholtz, Maxwell 和 Mach 等 人 对 脑 的 机 能 的 交叉 学 科研 究 的 启发 ， 并 将 他 们 的 观点 引入 
到 自己 的 工作 中 。 他 的 研究 处 于 数学 、 生 理学 和 神经 生理 学 的 交汇 处 。 缺 乏 这 些 领域 的 背景 
知识 对 初 读 其 作品 会 带 来 困难 。 

本 章 我 们 将 对 Grossberg 一 种 独创 性 的 网 络 作 初步 的 了 解 。 为 了 尽 可 能 地 理解 他 的 观点 ， 
将 首先 简要 介绍 他 的 网 络 的 生物 学 启发 : 视觉 系统 。 然 后 给 出 用 于 许多 Grossberg 网 络 的 数 
学 构造 模块 : 并 联 模型 。 在 对 这 个 简单 模型 的 功能 有 个 了 解 之 后 ， 我 们 将 演示 如 何 为 自 适应 
模式 识别 建立 神经 网 络 。 这 个 网 络 将 是 第 16 章 讨 论 的 自 适 应 谐振 理论 网 络 的 基础 。 通 过 逐 
步 地 建立 越 来 越 复杂 的 网 络 ， 我 们 希望 能 够 使 它们 更 容易 被 理解 。 

“我 们 应 从 本 章 的 讨论 中 吸取 一 个 非常 重要 的 教训 。 尽 管 人 工 神经 网 络 的 最 初 启发 来 源 于 
生物 学 ,但 时 常 我 们 忘记 回 到 生物 学 去 寻找 新 的 思想 。 将 会 出 现 生 物 学 、 数 学 、 心 理学 和 其 
他 学 科 的 结合 ， 这 将 极 大 地 促进 我 们 对 神经 网 络 的 理解 。 
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15.2.1 生物 学 的 启发 : 视 党 


本 章 所 描述 的 神经 网 络 受到 人 类 视觉 系统 的 生理 学 研究 的 启发 。 这 -一 小 节 我 们 要 对 视 党 
作 概 略 的 介绍 ， 从 而 使 网 络 的 功能 更 易于 理解 。 

图 15-1 是 视觉 系统 的 第 一 阶段 的 一 个 示意 图 。 光 通过 角膜 (眼前 部 的 透明 体 ) 和 水 晶体 ， 
水 晶体 使 光线 折射 从 而 将 物体 容 焦 在 视网膜 上 ( 眼 外 壁 的 内 层 )。 正 是 在 光线 落 到 视网膜 后 ， 
将 这 种 大 量 信息 翻译 为 可 理解 的 影像 的 过 程 才 开始 。 正 如 将 在 本 章 后 面 看 到 的 那样 ， 我 们 所 
“看 "到 的 许多 东西 并 不 是 实际 投射 在 视网膜 上 的 影像 。 


视觉 神经 纤维 











图 15-1 眼球 和 视网膜 


视网膜 PKA BK 视网膜 实际 是 大 脑 的 一 部 分 ， 它 在 胎儿 发 育 过 程 中 与 脑 分 离 ， 
但 保留 了 视神经 与 脑 的 相连 。 视 网 膜 有 三 层 神经 细胞 。 外 层 由 光 感 受 器 ( 杆 状 体 和 锥 体 ) 组 
成 ， 用 来 将 光 转 化 成 电信 号 。 杆 状 体 细胞 使 得 我 们 能 在 昏暗 的 情况 下 看 见 东 西 ， 而 锥 体 使 我 
们 看 到 精细 的 细节 以 及 颜色 。 由 于 现在 还 不 知道 的 原因 ， 光 必须 通过 视网膜 的 另外 两 层 来 刺 
激 杆 状 体 与 锥 体 。 正 如 在 下 面 将 会 看 到 的 ， 这 种 障碍 必须 在 神经 的 处 理 过 程 中 得 到 补偿 ， 以 
便 重建 可 识别 的 图 像 。 

双 极 细胞 水 平 细胞 元 长 突 细 胞 ”视网膜 的 中 间 层 由 三 种 细胞 组 成 : 双 极 细胞 、 水 平 
细胞 和 无 长 突 细胞 。 双 极 细胞 从 接受 器 接受 输入 并 且 传 递 给 视网膜 的 第 三 层 。 水 平 细胞 联结 
接受 器 和 双 极 细胞 ， 而 无 长 突 细胞 联结 双 极 细胞 与 神经 节 细 胞 。 

神经 节 细 胞 ”视网膜 的 最 后 一 层 由 神经 节 细 胞 组 成 。 神 经 节 细 胞 的 轴 突 通过 视网膜 的 表 
面 而 集成 一 东 形 成 视觉 神经 。 很 有 趣 的 是 每 只 眼 都 有 大 约 1.25 亿 个 感受 器 , 但 只 有 100 万 
个 的 神经 节 细 胞 。 显 然 在 视网膜 那里 做 了 大 量 的 处 理 以 减少 数据 。 

RERE ”神经 节 细胞 的 轴 突 部 分 ， 成 为 一 束 视觉 神经 ， 与 大 脑 的 一 个 叫做 “ 模 向 膝 状 
核 " 的 区 域 相连 ， 如 图 15-2 所 示 。 从 这 里 视觉 神经 纤维 肩 出 到 大 脑 后 部 的 主 视觉 皮层 。 神 经 
节 细 胞 的 轴 突 和 横向 膝 状 核 细 胞 构成 突 触 ， 而 横向 膝 状 核 细 胞 和 视觉 皮层 中 的 细胞 构成 突 
触 。 视 党 皮层 是 指 大 脑 的 一 个 实现 视觉 功能 并 且 由 许多 层 细胞 组 成 的 区 域 。 

沿 着 视觉 路 径 的 联结 绝 非 随意 的 。 每 一 层 到 下 一 层 的 映射 都 有 高 度 的 组 织 。 视 网 膜 特 定 
部 分 的 神经 节 细 胞 的 轴 突 伸 到 横向 膝 状 核 的 特定 部 分 ， 然 后 再 伸 到 视觉 皮层 的 特定 部 分 (这 
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图 15-2 视觉 路 径 


种 拓扑 映射 是 受 第 14 章 所 描述 的 自 组织 特 征 图 的 启发 )。 此 外 ， 正 如 我 们 在 图 15-2 中 所 看 
到 的 那样 ， 脑 的 每 个 半球 都 接收 来 自 两 只 眼 的 输入 ， 因 为 视觉 神经 纤维 的 一 半 交 叉 而 另 一 半 
保持 不 交叉 。 结 果 是 每 个 视觉 区 的 左 半 部 分 在 脑 的 左 半 部 分 结束 ， 而 每 个 视觉 区 的 右 半 部 分 
在 脑 的 左 半 部 分 结束 。 

1. 幻觉 

我 们 对 视觉 路 径 的 大 致 结构 有 了 某 些 了 解 ， 但 是 它 是 如 何 起 作用 的 呢 ? 视网膜 的 三 层 各 
有 什么 作用 ? 横向 膝 状 核 神 经 完成 什么 任务 ?这 些 问 题 将 能 够 从 对 视觉 幻觉 的 研究 中 受到 一 
些 启 示 。 

为 什么 有 这 么 多 视觉 幻觉 ?克服 视网膜 的 不 完善 的 吸收 过 程 的 机 制 产生 了 幻觉 。Grossberg 
和 其 他 人 使 用 了 大 量 已 知 的 幻觉 来 探测 自 适应 感知 机 制 [GrMi89]。 如 果 我 们 能 做 出 与 生物 学 系 
统 产生 同样 幻觉 的 数学 模型 ， 那 么 我 们 就 会 有 一 个 机 制 ， 可 以 描述 脑 的 这 一 部 分 是 如 何 工作 
的 。 为 了 帮助 理解 幻觉 存在 原因 ， 我 们 将 首先 考虑 一 下 视网膜 吸收 过 程 的 一 些 不 完善 的 地 方 。 

视神经 乳头 “图 15-3 是 一 幅 眼科 医生 透 过 角膜 所 看 到 的 视网膜 的 图 像 。 图 中 大 的 浅 色 
圆圈 是 视神经 乳头 ， 那 里 视神经 离开 视网膜 而 进入 横向 膝 状 核 神经 。 这 里 也 是 动脉 进入 视 网 
膜 以 及 葛 脉 移 开 的 地 方 。 这 个 视神经 乳头 导致 了 视觉 上 盲点 的 存在 。 稍 后 将 会 讨论 这 一 点 。 


视神经 乳头 《盲点 》 





图 15-3 眼底 
视网膜 止 斑 视神经 乳头 右边 的 深 色 圆 圈 是 视网膜 凹 班 ， 这 是 我 们 视 场 的 中 心 。 这 是 视 
网 膜 的 二 部分， 直径 大 约 有 半 毫 米 ， 其 中 只 有 锥 体 细胞 。 尽 管 锥 体 细胞 在 视网膜 的 各 处 都 有 
分 布 ， 但 它们 大 部 分 都 集中 于 视网膜 止 斑 处 。 此 外 ， 在 视网膜 的 这 个 区 域 ， 其 他 层 被 放置 边 
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上 ， 因 而 锥 体 细胞 排列 在 前 面 。 密 集 的 光 感 受 器 以 及 没有 阻碍 ， 使 得 我 们 在 视网膜 上 四 斑 处 有 
最 为 精细 的 视觉 ， 从 而 使 我 们 能 够 精确 地 聚焦 晶体 。 

从 图 15-3 能 够 看 到 在 视网膜 的 吸收 过 程 中 存在 着 一 些 不 完善 之 处 。 首 先 ， 在 视神经 乳 
头 处 既 无 杆 状 细胞 也 无 锥 体 细胞 ， 从 而 给 我 们 的 视 场 造成 了 一 个 盲点 。 因 为 视觉 路 径 所 做 的 
处 理 使 得 我 们 通常 不 能 党 察 到 盲点 的 存在 ， 但 可 以 通过 一 个 简单 的 试验 来 验证 。 请 看 图 15- 
4 中 左边 的 黑色 圆圈 ， 并 且 遗 住 你 的 左 眠 。 你 将 头 向 纸 面 移 近 ， 然 后 再 远离 ， 那 么 你 将 注意 
到 一 个 点 (大 约 距 纸 面 9 英寸 远 ) ， 在 那里 右边 的 圆圈 将 从 你 的 视 场 中 消失 (你 仍然 注视 着 左 
边 的 圆 图)。 如 果 以 前 你 没有 试 过 这 么 做 ， 那 么 可 能 有 点 难 做 。 有 趣 的 是 我 们 看 到 自己 的 盲 
点 并 不 是 以 一 个 黑洞 出 现 。 有 时 我 们 的 大 脑 设法 填补 了 那个 看 不 到 的 区 域 。 


图 15-4 盲点 测试 


另外 一 个 视网膜 吸收 过 程 不 完善 的 地 方 是 动脉 和 静脉 在 视网膜 后 部 的 光 感 受 器 的 前 面 
交叉 。 这 阻碍 了 杆 状 细胞 及 锥 体 细胞 接收 视 场 中 所 有 的 光线 。 而 且 ， 因 为 光 感受 器 在 视网膜 
的 后 部 ， 光 线 必须 通过 其 他 两 层 才 能 到 达 那 里 。 

图 15-5 展示 了 这 种 不 完善 之 处 的 结果 。 从 图 中 我 们 看 展现 在 视网膜 上 的 一 条 边 。 右 边 
的 说 明 最 初 由 光 感 受 器 接收 到 的 图 像 。 被 言 点 和 静脉 覆盖 的 区 域 没 有 被 宪 状 细胞 及 锥 体 细 胞 
观察 到 。( 我 们 看 不 到 动脉 和 静脉 等 的 原因 是 视觉 路 径 并 不 对 稳定 的 图 像 产生 响应 。 眼 球 的 
不 断 的 震动 ， 也 称 作 跳跃 运动 ， 因 而 即使 是 视 场 中 固定 的 物体 也 在 相对 于 眼球 运动 。 静 脉 对 
于 眼球 是 静止 的 ， 因 而 在 视 场 中 是 暗淡 的 。) 














ih /A N 
lk `~ 
ha 
| 稳定 图 像 变 暗 


图 15-5 ”视网膜 上 一 条 边 的 感知 ( 见 [ Gros90]) 


应 急切 断 ”特征 填充 。 因 为 我 们 看 到 的 并 不 是 图 15-5 右边 所 示 的 边 ， 视 觉 路 径 上 的 神 
经 系统 一 定做 了 某 些 处 理 ， 从 而 弥补 了 那些 失真 ， 补 全 了 图 像 。Grossbsrg 提 到 两 种 主要 的 
补偿 处 理 。 第 一 种 ， 他 称 之 为 应 急切 断 (emergent segmentation)， 补 偿 了 丢失 的 边界 。 第 二 
种 ， 他 叫做 特征 填充 (featural filling - in), 在 产生 的 边界 内 填充 颜色 和 亮度 。 这 两 种 过 程 在 
图 15-6 中 说 明 。 在 上 面 的 图 中 我 们 看 到 一 条 由 杆 状 核 细 胞 和 锥 体 细胞 察觉 到 的 原始 边 ， 包 
含 丢 失 的 片段 。 在 下 面 的 图 中 看 到 在 应 急切 断 和 特征 填充 之 后 的 完整 边 。 

如 果 沿 着 视觉 路 径 的 处 理 重新 建立 了 我 们 所 看 到 图 像 的 丢失 部 分 ， 那 么 就 一 定 有 弄 错 的 
时 候 ， 因 为 它 不 能 够 确切 地 知道 那些 它 没有 接受 到 光线 的 场景 部 分 。 这 种 错误 能 够 由 视觉 纪 
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处 理 后 





应 急切 断 特征 填充 


图 15-6 补偿 处 理 ( 见 [ Cros90 1) 
觉 予 以 说 明 。 例 如 ， 在 图 15-7 的 左 图 中 你 能 够 看 到 一 个 亮 白色 的 三 角形 置 于 几 个 其 他 黑色 
物体 的 上 面 。 事实 上 ， 图 中 并 不 存在 这 样 的 三 角 ， 这 纯粹 是 视觉 系统 的 应 急切 断 及 特征 填充 
处 理 过 程 的 一 种 创造 。 这 种 情况 同样 也 适用 于 右 图 中 那个 看 起 来 像 置 于 那些 线 上 的 亮 白色 圆 


B. 
图 15-7 
图 15-8 展示 了 特征 填充 的 过 程 。 这 种 幻 党 叫做 霓 虹 色 扩展 。 在 右边 的 图 中 你 也 许 能 够 
在 图 中 看 到 淡 蓝 色 的 钻石 ， 其 至 宽 的 淡 蓝 色 十 字形 线条 。 在 左边 的 图 中 能 看 到 淡 蓝 色 的 环 。 
填充 在 钻石 中 的 蓝 色 及 环 并 不 是 在 印刷 过 程 中 涂抹 的 颜色 ， 也 不 是 由 于 光 的 散射 。 这 种 效果 
并 没有 在 视网膜 上 出 现 。 除 了 在 你 的 脑 中 它 根本 就 不 存在 。( 霓 虹 色 扩展 的 感知 现象 因 人 而 


异 ， 并 且 感 知 的 强度 取决 于 使 用 的 颜色 。 如 果 你 在 图 15-8 中 看 不 到 这 种 效果 ， 请 看 任何 一 
期 《神经 网 络 》( Neural Networks， Pergamon Press) 杂 志 的 封面 。) 














图 15-8 霓 虹 色 扩展 (特征 填充 ) 


在 本 章 后 面 我 们 将 讨论 一 些 能 够 帮助 解释 应 急切 断 以 及 其 他 视觉 现象 处 理 过 程 的 神经 网 
络 模型 。 





15-7 


15-8 


320 PAR FI AR TCI 





2. 视觉 规格 化 

亮度 一 臻 ”亮度 对 比 除了 应 急切 断 和 特征 填充 ， 还 有 其 他 两 种 早期 的 视觉 系统 中 的 现 
象 ， 对 于 完成 什么 动作 给 予 我 们 一 种 提示 : 亮度 一 致 和 亮度 对 比 。 亮 度 一 致 的 效果 能 够 通过 
图 15-9 所 示 的 测试 证 实 。 在 这 个 测试 中 被 试 者 看 到 一 个 小 灰 圆 盘 在 一 个 大 暗 灰 的 圆 环 中 ， 
用 一 定 强度 的 白光 照射 。 要求 被 测试 者 从 一 系列 分 别 照射 的 灰色 圆 盘 中 指出 中 间 圆 盘 的 亮 
度 ， 并 且 选 出 具有 相同 亮度 的 圆 盘 。 然 后 ， 对 照射 灰色 圆 盘 及 深 色 圆 环 的 灯光 增加 亮度 ， 再 
次 要 求 被 测试 者 选择 出 具有 相同 亮度 的 圆 盘 。 这 样 的 过 程 在 不 同 水 平 的 照明 度 下 进行 几 次 。 
结果 ， 每 次 试验 中 被 测试 者 都 会 选择 与 原来 中 间 那 个 圆 盘 一 样 的 圆 盘 。 即 使 进入 被 测试 者 眼 
中 的 总 光 强 度 是 10 到 100 倍 ， 只 有 相对 亮度 起 到 了 作用 。 





变化 的 光照 各 别 的 恒定 光照 











图 15-9 亮度 一 致 性 的 测试 ( 见 [Gros90]) 


视觉 系统 与 亮度 一 致 关系 密切 的 另 一 个 现象 ， 是 亮度 对 比 。 这 种 效果 可 以 从 图 15-10 中 
得 到 证 明 。 在 两 幅 图 中 心 各 有 一 个 相同 灰 度 的 小 圆 盘 。 左 面 图 中 的 小 圆 盘 被 一 个 深 色 圆 环 包 
围 着 ， 右 面 图 中 的 小 圆 盘 被 浅 色 圆 环 包围 着 。 尽 管 两 个 圆 盘 有 同样 的 灰 度 ， 那 个 在 深 色 圆 环 
中 的 显得 更 亮 些 。 这 是 因为 我 们 的 视觉 系统 对 相对 亮度 是 敏感 的 。 看 起 来 好 像 跨越 整个 图 像 
的 整体 亮度 是 连续 的 。 





图 15-10 


亮度 一 致 和 亮度 对 比 的 特性 对 我 们 的 视觉 系统 很 重要 。 猎 然 我 们 能 够 看 到 许多 种 不 同 
照明 的 情况 ， 如 果 我 们 不 能 够 补偿 一 个 场景 的 绝对 强度 ， 那 将 永远 不 能 学 会 识别 物体 。 
Grossberg 称 这 种 规格 化 过 程 为 “不 完全 相信 光源 "(discounting the illuminant) o 

在 本 章 的 余下 部 分 我 们 将 提出 一 种 与 这 小 节 讨 论 的 物理 现象 相 一 致 的 网 络 结构 : 基本 非 
线性 模型 。 
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15.2.2 基本 非 线性 模型 WEDS 


漏 积 分 器 ”时 间 常 数 ”在 介绍 Grossberg 网 络 之 前 ， + n n 
我 们 将 先 看 一 些 构成 网 络 的 组 成 模块 。 第 一 种 组 成 模块 —0^ gs 
是 “ 漏 "积分 器 (“leaky”integrator) ， 如 图 15-11 所 示 。 这 | 


个 系统 的 基本 方程 是 
£dn/dt = - 
SIC Los) + ple) (15.1) maS onp 
其 中 的 e 是 系统 的 时 间 常 量 。 图 15-11 漏 积分 器 


对 一 个 任意 的 输入 p(:) ， 沁 积分 器 的 响应 是 
n(t) = en() + [e 679^ p(¢ rdr (15.2) [is] 
例如 ， 如 果 输 入 p(t) 是 常量 且 初 始 条 件 n(0) 是 0， 等 式 (15.2) 将 成 为 


n(t) = p(l- e^"*) (15.3) 


图 15-12 给 出 了 这 个 响应 的 一 个 图 示 ， 其 中 p=1, ez 1。 响 应 曲线 以 指数 形式 趋 于 稳 
定 的 状态 值 1。 











图 15-12” 漏 积分 器 的 响应 曲线 
我 们 需要 注意 漏 积分 器 的 两 种 重要 属性 。 其 一 ， 因 为 方程 (15.1) 是 线性 的 ， 如 果 输 入 
p 按 比 例 变化 ， 则 响应 n(s) 将 会 以 同样 的 大 小 按 比 例 变化 。 例 如 ， 如 果 输 入 加 倍 ， 响 应 也 
会 加 倍 ， 但 形状 不 变 。 这 在 式 (1$.3) 中 是 明显 的 。 其 二 ， 漏 积分 器 的 响应 速度 由 时 间 常 数 s 
决定 。 当 8 减少 时 响应 速度 变 快 ， 当 & 增 加 时 响应 速度 变 慢 ( 见 例题 P5. 1). 
试验 漏 积 分 器 请 用 Neural Network Design Demonstration Leaky Integrator 
(nnd15li) 。 


并 联 模 型 激励 抑制 ” 漏 积分 器 组 成 了 Grossberg 的 基本 神经 模型 的 核心 : 并 联 模型 
( 见 图 15-13)。 这 种 网 络 的 操作 方程 是 


ERU Los) e (bt nla) pt~ (alt) + bp (15.4) 
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其 中 p 是 一 个 非 负数 值 ， 代 表 对 网 络 的 激励 输入 (使 响应 增加 的 输入 )，p -是 一 个 非 
负数 值 ， 代 表 抑 制 输入 (使 响应 减少 的 输入 ) 。 偏 置 值 5* 和 2 - 是 决定 神经 元 响应 的 上 限 和 
-15-10 ”下限 的 非 负 常 量 ， 下 面 将 有 详细 解释 。 


输入 基本 并 联 模型 


NN 





gdn/dt = -n + (bt - n)p* - (n+ b)p 


图 15-13 并联 模 型 


在 方程 (1$.4) 的 右边 有 三 个 部 分 ， 当 这 三 个 部 分 的 最 后 符号 是 正 时 ，n (1) 将 会 增加 。 
当 最 后 符号 为 负 的 时 候 ，n (i) 将 会 下 降 。 为 了 理解 网 络 的 性 能 让 我 们 来 研究 这 三 个 部 分 。 

第 一 部 分 - n(z) 是 一 个 线性 衰减 项 ， 它 在 漏 积分 器 中 也 可 以 见 到 。 当 n(i) 为 正 时 这 一 
项 为 负 ，n(1) 为 负 时 这 一 项 为 正 。 第 二 部 分 (b+ - n(t))p!+， 提 供 非 线 性 的 增益 控制 。 当 
n(t) 比 5+ 小 时 ， 这 部 分 为 负 ， 但 是 当 n(1) = b+ 时 变 为 零 。 这 样 实际 就 给 n(1) 设 置 了 上 限 
b+!。 第 三 部 分 - (n(t) +b p -也 提供 非 线性 的 增益 控制 。 它 给 n(1) 设 置 一 个 下 限 -b-。 

15-14 展示 了 并 联 模型 当 b+ 21, b =0 和 e=1 了 时 的 性 能 。 在 左 图 中 可 以 看 出 当 激 
励 输 入 p* = 1 和 抑制 输入 p^ =O 时 网 络 的 响应 。 在 右 图 p+ =5，p ”=0。 注 意 到 即使 激励 
输入 增加 了 5 倍 ， 稳 定 状 态 的 网 络 响应 只 增加 了 2 倍 。 如 果 继 续 增 加 激励 输入 ， 我 们 能 够 发 
现 稳 定 状态 的 网 络 响 应 将 会 增加 ,但 总 是 小 于 bt = 1。 
































` 图 15-14 并 联网 络 的 响应 
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如 果 给 并 联网 络 提 供 一 个 抑制 输入 ， 则 稳定 状态 的 网 络 响应 将 b* 
会 降低 ， 但 依然 将 比 -b 大。 总 结 一 下 并 联 模型 的 操作 ， 如 果 
n(0) 在 5 和 -4 久之 间 ， 那 么 rz( 纪 将 保持 在 这 个 限制 中 ， 如 图 15- 
15 所 示 。 (0 nt 
并 联 模型 是 Grossberg 竞争 网 络 的 基础 。 我 们 将 在 下 一 节 讨 论 
这 种 网 络 ， 用 非 线 性 的 增益 控制 来 规格 化 输入 模式 并 日 在 大 范围 的 
总 体 强 度 中 保持 相对 强度 。 
试验 并 联 模型 请 用 Neural Network Design Demonstration Shunting Network 
(nndi5sn), 





15.2.3 两 层 竞争 网 络 


我 们 现在 已 经 作 好 提出 Grossberg 竞争 网 络 准 备 。 这 种 网 络 是 受 哺 乃 动物 的 视觉 系统 启发 
的 ， 这 在 本 章 15.1 节 已 作 过 讨论 。Grossberg 受 Chistoph von der Malsburg 的 工作 [vond73] 的 影 
响 ， 而 后 者 又 受 诺 贝尔 奖 得 主 David Hubel 和 Torsten Wiesel 的 实验 工作 [HuWi62] 的 影响 。 图 
15-16 展示 了 这 样 一 个 网 络 简 图 。 

短期 记忆 长 期 记忆 Grossberg 网 络 由 三 部 分 组 成 : 第 一 层 ， 第 二 层 和 自 适 应 权 值 。 
第 一 层 是 视网膜 操作 的 一 个 粗略 模型 ， 而 第 二 层 则 代表 视觉 皮层 。 这 个 模型 并 不 完全 说 明 人 
类 视觉 系统 的 复杂 性 ， 但 它 能 够 说 明 视 党 系统 的 一 些 特点 。 网 络 包括 短期 记忆 (STM) 和 长 
期 记忆 (LTM) 的 机 制 ， 并 且 能 够 进行 自 适 应 调整 、 过 滤 、 标 准 化 和 对 比 度 增 强 。 在 下 面 几 
小 节 中 我 们 将 讨论 网 络 的 每 一 组 成 部 分 的 操作 。 





规格 化 对 比 度 增强 


15-16 Grossberg 竞争 网 络 

1. 第 一 层 

Grossberg 网 络 的 第 一 层 接收 外 部 输入 并 且 规 格 化 输入 模式 的 强度 。( 回忆 第 14 章 中 
Kohonen 网 络 当 输入 模式 被 规格 化 的 时 候 表 现 最 好 。 对 于 Grossberg 网 络 这 种 规格 化 被 网 络 
的 第 一 层 实现 。) 图 15-17 给 出 了 一 个 这 个 层次 的 简 图 。 注 意 它 使 用 了 并 联 模型 ， 以 输入 向 量 
p 计 算出 来 激励 输入 和 抑制 输入 。 

第 一 层 的 运算 方程 是 

:dD =- 0 +b -n'(1))[* W]p- (n'(t) «^ b)[- Wlp (15.5) 














15-11 








15-12 


15-13 
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£dn!/dt = - n! + (b! - n)[*W!]p - (n! x" bo[ Wi]p 


图 15-17 Grossberg 网 络 的 第 一 层 
正如 我 们 早先 提 到 的 一 样 BR 决定 了 响应 的 速度 。 选 择 e 使 得 神经 元 响应 的 比 自 适 
应 权 值 的 变化 要 快 得 多 ， 我 们 将 在 后 面 小 节 讨 论 这 个 问题 。 
式 (15.5) 是 一 个 有 激励 输入 [+ W jp 的 并 联 模型 ， 其 中 


1 0 … 0 
0 1 … 0 
tW = e. (15.6) 


因此 对 神经 元 i 的 激励 输入 是 输入 向 量 的 第 个 元 素 。 
第 一 层 的 抑制 输入 是 [ W!]p, AF 


0 1 1 
1 0 "T 1 

-W = e. (15.7) 
1 1 wee 0 


因此 对 神经 元 i 的 抑制 输入 是 除了 输入 向 量 第 ; 个 元 素 的 所 有 元 素 之 和 。 

加 强 中 心 / 抑 制 周围 ”由 和 矩阵 + W1 OW! 定义 的 连接 模式 叫做 加 强 中 心 /抑制 周围 模式 。 
这 是 因为 对 神经 元 i 的 激励 输入 (使 神经 元 打开 ) 来 自 集中 在 同一 位 置 的 输入 向 量 的 元 素 ( 元 
X 站， 同时 抑制 输入 (使 神经 元 关闭 ) 则 来 自 周 围 各 个 位 置 。 这 种 类 型 的 连接 模式 创造 了 一 
种 规格 化 输入 模式 ， 正 如 下 面 将 要 讨论 的 那样 。 

为 了 简便 ,我们 将 抑制 偏 置 值 -b! 设 为 0， 从 而 使 并 联 模 型 的 下 限 为 0， 并 且 将 激励 偏 
Sib 的 所 有 元 素 设 为 相同 的 数值 ， 即 

*bü-*b5, (212,8! (15.8) 
15-4， 因而 所 有 神经 元 的 上 限 将 是 相同 的 。 
为 了 研究 第 一 层 规格 化 的 效果 ， 考 虚 神 经 元 i BURN: 


! 
dei =- nal) + C B! — nl() p, - nit) dip, (15.9) 
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在 稳定 状态 (dni(t)/dt = 0) 我 们 有 
0--nla«(C b! - np, - ni dup, (15.10) 


如 果 解 出 稳定 状态 神经 元 输出 ni 可 得 





b! 
n} = Pi (15.11) 
l+ >p, 
jel 
这 时 我 们 定义 输入 i 的 相对 强度 为 
s! 
p= 大， 其 中 PP = dip, (15.12) 
于 是 稳定 状态 神经 元 的 活跃 度 可 以 写成 i 
oe (2). asm 


因此 将 与 相对 强度 成 正比 ， 无 论 总 输入 P KERIT. PAM, RUTTER BE 
是 有 界 的 








s! Se pl + pl 
Znj = Miser: 252 (15.14) 
输入 向 量 已 经 规格 化 ， 从 而 总 的 活跃 度 小 于 * b+， 同 时 输入 向 量 的 单个 元 素 的 相对 强度 
得 到 了 保留 。 因 此 ， 第 一 层 的 输出 n}， 代 表 相 对 输入 强度 p;， 而 并 非 总 的 输入 活跃 上 度 的 同 
时 振动 强度 P。 这 种 结果 是 因为 采用 了 加 强 中 心 /抑制 周围 的 输入 连 接 模 式 与 并 联 模 型 的 非 
线性 增益 控制 。 
注意 到 Grossberg 网 络 的 第 一 层 解释 了 人 类 视 党 系统 的 亮度 一 致 性 和 亮度 对 比特 征 ， 也 
就 是 我 们 在 15.2.1 节 的 “视觉 规格 化 "中 所 讨论 的 。 这 种 网 络 对 于 一 个 图 
像 的 相对 强度 而 非 绝对 强度 是 敏感 的 。 而 且 ， 试 验证 明 这 种 加 强 中 心 / 抑 
制 周 围 的 连接 模式 是 视网膜 神经 节 细 胞 接收 区 域 的 一 个 有 特色 的 特征 
[Hube88]. (接收 区 域 是 视网膜 上 的 一 个 区 域 ， 那 里 光 感 受 器 馈送 信息 
到 特定 细胞 。 图 15-18 表示 一 个 典型 的 视网膜 神经 节 细 胞 的 加 强 中 心 / 抑 
制 周围 的 接收 区 域 。“ + ”号 表示 激励 区 域 , “ - ”号 代表 抑制 区 域 。 这 是 
一 个 二 维 的 模式 ， 与 等 式 (15.6) 及 (15.7) 所 描述 的 一 维 连接 不 同 。) 
为 了 示例 第 一 层 的 性 能 ， 考 虑 有 两 个 神经 元 的 情况 ， 其 中 + o', es 
0.1: 





(0.1) SH 1. 6) + (Dp) -本 (Ps (15.15) 


(0.1) 一 个 一 dna() =- nl) + (1- n3(t)p,) - ni(O p, (15.16) 


这 个 网 络 对 两 个 不 同 的 输入 向 量 的 响应 请 见 图 15-19。 对 这 两 个 输入 向 量 , 第 二 个 元 素 是 第 

一 个 元 素 的 4 倍 ， 尽 管 第 2 个 输入 向 量 的 总 强度 是 第 一 个 输入 向 量 的 5 倍 ( 即 50 比 10)。 从 
图 15-19 中 可 以 看 到 网 络 的 响应 保持 了 输入 的 相对 强度 ， 而 同时 限制 了 总 的 响应 。 总 响应 
(nit) + z(t)) 将 恒 小 于 1。 





326 EAE IL AE IE tf 






































图 1$-19 ”第 一 层 的 响应 





berg Layer 1 (nndi5gl1). 


2. 第 二 层 


试验 Grossberg 网 络 的 第 一 层 请 用 Neural Network Design Demonstration Gross- 


短期 记忆 Grossberg 网 络 的 第 二 层 ， 是 一 个 连续 的 instar 层 ， 实 现 几 种 功能 。 第 一 ， 
像 第 一 层 那 样 ， 规 格 化 这 一 层 的 总 活跃 度 。 第 二 ， 它 对 模式 产生 对 比 度 增强 ， 从 而 获得 最 大 
输入 的 神经 元 将 支配 响应 。( 这 种 与 Hamming 网 络 和 Kohonen 网 络 的 “ 胜 者 全 得 "竞争 密切 
相关 。) 最 后 ， 它 像 短 期 记忆 (STM) 那 样 通过 存储 对 比 度 增 强 模 式 操作 。 

图 15-20 是 第 二 层 的 图 示 。 和 第 一 层 一 样 ， 并 联 模型 是 第 二 层 的 基础 。 第 二 层 和 第 一 层 
的 主要 区 别 在 于 第 二 层 使 用 反馈 式 连接 。 反 馈 使 得 网 络 能 够 存储 模式 ， 即 使 是 在 输入 撤消 之 
后 。 反 馈 也 进行 竞争 ， 从 而 产生 模式 的 对 比 度 增强 。 我 们 将 在 下 面 的 讨论 中 讲解 这 些 特 性 。 


第 2 层 





抑制 周围 sxs j 


edm/di = - +(+- )i[ WEO) + W'al | 
- a -cp)[- WE fr?) 
图 15-20 Grossberg 网 络 的 第 二 层 
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第 二 层 的 运算 方程 是 


ed = - nmt) 十 《+ p- m(i)ic* W? É£ (n (t) + Wai | 


(15.17) 
- (w(t) «9» Ww? £P CO) 
这 是 一 个 有 激励 输入 |L + W? POST C) + Wia!l| 的 并 联 模型 ,其 中 +W - :Wi 提供 了 加 
强 中 心 的 反馈 连接 ， 与 Kohonen 网 络 的 权 值 相似 ，W? 由 自 适 应 权 值 组 成 。VW 的 行 在 训练 
之 后 将 会 代表 原型 模式 。 并 联 模 型 的 抑制 输入 是 [WJfR(m(i))， 其 中 - W = -Wi 提供 了 
抑制 周围 的 反馈 连接 。 
为 了 说 明 第 二 层 的 性 能 ， 考 虑 一 个 由 两 个 神经 元 组 成 的 层 


ww) 
e=0.1,*b = pos = [o] we = | ) | = los aa (15.18) 


1 0 Gw)? 0.45 0.9 
" 10n)? 
10( n 
fan) = Tn (15.19) 
这 一 层 的 运算 方程 是 
d 2 
(0.1) ^E = aC e ADIPA Ta auus 
- n PnU) 

(0.1) MEO L 305 + C- GE GR» + Cow) Tal] 

"^ dt ; ; ? ? (15.21) 


- n3(t) f(ont (1) 

对 比 度 增 强 ”注意 这 些 等 式 和 Hamming 网 络 及 Kohonen 网 络 的 关系 。 第 二 层 的 输入 是 
原型 模式 (矩阵 W 的 行 ) 和 第 一 层 的 输出 (规格 化 后 的 输入 向 量 ) 的 内 积 。 最 大 的 内 积 与 输入 
模式 最 相近 的 原型 对 应 。 第 二 层 在 神经 元 之 中 实行 竞争 ,将 易于 产生 输出 模式 时 对 比 度 增强 
一 一 保持 大 的 输出 并 使 小 的 输出 减弱 。 这 种 对 比 度 增强 比 起 Hamming 网 络 及 Kohonen 网 络 
来 通常 要 组 和 一 些 。 在 Hamming 网 络 和 Kohonen 网 络 中 ， 竞 争 使 除了 一 个 以 外 的 所 有 神经 
元 输出 归 0。 那 个 除外 的 神经 元 是 有 最 大 输入 的 神经 元 。 在 Grossberg 网 络 中 ， 竞 争 保持 大 
的 值 而 削弱 小 的 值 ， 但 并 无 必要 使 所 有 的 小 值 归 0。 对 比 度 增强 的 大 小 是 由 传输 函数 PP OR 
定 的 ， 下 一 节 我 们 将 看 到 这 点 。 

图 15-21 显示 了 当 输 人 向 量 a = [0.2 0.8] 时 第 二 层 的 响应 (稳定 状态 的 结果 从 第 一 
层 的 例子 得 到 ) ， 输 入 向 量 加 人 了 0.25 秒 ， 然 后 撤离 。 

这 种 响应 有 两 个 重要 的 特点 。 第 一 ， 其 至 在 输入 撤消 之 前 ， 某 些 对比 度 增强 已 经 开始 产 
生 。 第 二 层 的 输入 是 


OOw)7al = [0.9 0.45102] = 0.54 (15.22) 
0.2 
Gw )Ta! = [0.45 0.93|° 8 | = 0.81 (15.23) 


因此 第 二 个 神经 元 是 第 一 个 神经 元 输入 的 1.5 们 。 然 而 在 0.25 秒 之 后 ， 第 二 个 神经 元 的 输 
出 是 第 一 个 神经 元 输出 的 6.34 倍 。 高 与 低 的 对 比 度 急剧 地 增加 了 。 


15-17 
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图 15-231 第 二 层 响应 


响应 的 第 二 个 特点 是 当 输 入 被 置 0 的 时 候 ， 网 络 进一步 增强 对 比 度 ， 并 且 存 储 模式 。 从 
图 15-21 中 可 以 看 出 ， 当 输入 撤消 (0.25 秒 ) 后 第 一 个 神经 元 的 输出 衰减 至 0， 而 同时 第 二 个 
神经 元 的 输出 达到 一 个 稳定 状态 值 0.79。 即 使 在 输入 撤消 之 后 ， 这 个 输出 仍然 得 以 保存 。 

118-19) (Grossberg 将 这 种 行为 称 作 回荡 。) 正 是 非 线性 反馈 使 得 网 络 存储 模式 ， 而 且 出 现 引起 对 比 度 

增强 的 加 强 中 心 / 抑 制 周围 的 连接 模式 (由 + W? 和 -W 决定 )。 

定向 接收 区 域 ”说 一 点 离 题 的 话 ， 注 意 到 我 们 在 Grossberg 网 络 的 两 层 都 使 用 了 加 强 中 
心 /抑制 周围 的 结构 。 对 不 同 的 应 用 可 以 采用 其 他 的 连接 模式 。 例 如 回想 本 章 早 些 的 时 候 讨 
论 过 的 应 急切 断 问 题 。 一 种 被 提议 用 来 实现 这 种 机 制 的 结构 是 定向 接收 区 域 
LGrMi89]， 如 图 15-22 中 所 示 。 对 于 这 种 结构 ,，“ 开 ” (激励) 连接 来 自 区 域 C 
的 一 边 ( 用 蓝 色 区 域 表示 ),“ 闭 (抑制 ) 联 接 来 自 区 域 的 另 一 边 ( 用 白色 区 域 
表示 )。 B 图 15-22 

定向 接收 域 的 作用 过 程 见 图 15-23 所 示 。 当 区 域 与 一 个 边 对 齐 时 相应 的 
神经 元 被 激活 (大 的 响应 )。 如 果 区 域 没有 与 一 边 对 齐 ， 则 神经 元 是 不 活跃 的 (小 的 响应 )。 这 就 
解释 了 我 们 为 什么 能 够 感受 到 一 个 根本 就 不 存在 的 边 。 正 如 图 15-23 中 最 右边 的 接收 域 所 示 。 


«f 


不 活路 


活路 


图 15-23 ”定向 接收 区 域 的 操作 
对 定向 接收 区 域 及 如 何 将 它们 加 进 一 个 神经 网 络 结构 以 便 提 前 观察 的 讨论 ， 请 参考 
LGrMi89]。 这 篇 论文 也 讨论 了 特征 填充 的 机 制 。 ni (0) 
3. 传输 函数 的 选择 
Grossberg 第 二 层 的 行为 在 很 大 程度 上 依赖 于 传输 函数 f(r). Ban, 


假定 一 个 输入 已 经 被 使 用 了 一 段 时 间 , 因 而 输出 已 经 稳定 在 图 15-24 中 图 15-24 
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所 示 的 模式 。( 每 个 点 代表 单个 神经 元 的 输出 。) 如 果 输 入 被 撤消 ， 图 15-25 展示 P On) RE BE 


将 会 怎样 影响 网 络 的 稳 态 响应 ( 见 [ Gross82])« 
fun) ee aad 


完美 地 存储 任 
TRA, BÆ 
放大 了 噪声 


胜 者 全 得 ， 
抑制 噪声 ， 
量化 总 活跃 度 





图 15-25 ”传输 函数 瑚 (m) 的 作用 (摘自 [Gross8z] ) 


如 果 传 输 函 数 是 线性 的 ， 则 模式 被 完美 的 存储 。 遗 憾 的 是 模式 中 的 噪声 被 放大 了 ， 并 
且 和 有 效 输入 一 样 容 易 被 存储 了 ( 见 例题 P15.6)。 如 果 传 输 函 数 是 比 线性 的 慢 ( 例 如 产 (mn) = 
1-e-")， 则 稳 态 响应 与 初始 条 件 无 关 ， 所 有 以 非 零 值 开始 的 神经 元 将 在 稳定 状态 达到 同一 
水 平 。 所 有 的 对 比 度 都 被 消除 而 噪声 被 放大 。 

比 线性 快 的 传递 函数 (例如 (n) = (n)”) 产 生 胜 者 全 得 的 竞争 。 只 有 那些 有 最 大 初始 值 
的 神经 元 得 到 存储 ; 所 有 其 他 神经 元 都 被 设置 为 0。 这 就 使 噪声 的 影响 达到 最 小 ， 但 使 响应 
量化 成 有 或 无 信号 值 (和 Hamming 网 络 和 Kohonen 网 络 一 样 )。 

一 个 S 型 冰 数 对 于 小 信和 号 是 比 线性 快 的 ， 对 于 中 等 信号 是 近似 线性 的 ， 对 于 大 信和 号 是 
比 线性 慢 的 。 当 一 个 S 型 传输 函数 在 第 二 层 被 使 用 ， 模 式 对 比 度 增强 ， 较 大 的 值 被 放大 ， 
较 小 的 值 被 缩小 。 所 有 小 于 一 定 水 平 ( 被 Grossberg 称 为 熄灭 阅 值 [ Gross76] 的 初始 神经 元 输 
出 将 衰减 到 0。 这 就 将 比 线性 快 的 传输 函数 的 噪声 抑制 与 线性 传输 函数 所 产生 的 完美 存储 结 
合 在 一 起 。 
试验 Grossberg 网 络 的 第 二 层 请 用 Neural Network Design Demonstration Gross- 
berg Layer 2 (nndlsgl2)。 





4. 学 习 规 则 
长 期 记忆 Grossberg 网 络 的 第 三 个 组 成 部 分 是 自 适应 权 值 W iM. Grossberg 
称 这 些 自 适 应 权 值 为 长 期 记忆 (LTM)。 这 是 因为 W 的 行将 代表 已 被 存储 的 而 且 能 够 被 网 络 


15-23} 
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识别 的 模式 。 就 像 在 Hamming 网 络 和 Kohonen 网 络 一 样 ， 与 输入 模式 最 接近 的 存储 的 模式 
将 在 第 二 层 产 生 最 大 的 输出 。 在 下 一 小 节 我 们 将 更 加 详细 讨论 Grossberg 网 络 与 Kohonen 网 
络 的 关系 。W? 的 一 个 学 习 规 则 由 下 式 给 出 ; 
dw?,(t) 
dt 

方程 (15.24) 的 左边 的 括号 中 的 第 一 项 是 一 个 被 动 的 衰减 项 ， 我 们 在 第 一 层 和 第 二 层 的 
方程 中 都 曾经 见 过 ， 而 第 二 项 实现 Heb 型 学 习 。 这 些 项 一 起 实现 在 第 13 章 讨论 过 的 带 误 
减 的 Hebb 规则 。 

回忆 在 第 13 章 中 当 ni(1) 不 活跃 时 关闭 学 习 ( 并 遗忘 ) 常 常 是 很 有 用 的 。 这 可 以 通过 以 
下 学 习 规 则 来 实现 : 





= al- wijt) + niCOnjCO! (15.24) 


dw? (2) 








Dnt) wi) + nC) (15.25) 
或 者 用 向 量 形式 
dato] - an?) i- LG] + me) (15.26) 


Hw CE W 的 第 i 行 的 元 素 所 组 成 的 向 量 ( 见 等 式 4.4) 。 

方程 (15.25) 右 边 的 项 用 n?(1) 乘 ， 使 得 学 习 ( 并 遗忘 ) 只 有 当 n3(i) 为 非 零 的 时 候 才 会 
RE., REF 13 章 等 式 (13.32) 所 介绍 的 instar 学 习 规 则 的 连续 实现 。 在 下 面 的 小 节 中 我 们 
将 证 明 方 程 (15.25) 与 式 (13.32) 等 价 。 为 了 说 明 Grossberg 学 习 规 则 的 性 能 ， 考 虑 一 个 每 层 
有 2 个 神经 元 的 网 络 ， 权 值 修改 方程 如 下 : 








deh) L Aa) vbi) + aO] (15.27) 
awit) = nt(t)|- walt) + n4) (15.28) 
avast) = nh(t)}- w24G) + ni(t)} (15.29) 
dwi) 3. w3o(t) + nC)! (15.30) 


dt 
其 中 学 习 速 度 系数 a 被 置 为 1。 为 了 简化 我 们 的 例子 ， 假 设 两 种 不 同 的 输入 模式 以 0.2 2H 
周期 交替 提交 给 网 络 。 我 们 还 假设 ， 与 权 值 的 收敛 相 比 第 一 层 和 第 二 层 是 非常 快 的， 因此 神 
经 元 输出 在 0.2 秒 时 已 经 足够 稳定 了 。 第 一 层 和 第 二 层 对 于 不 同 的 输入 模式 的 输出 将 是 


对 模式 1: n = Pear m -| (15.31) 
对 模式 2 n! = [o5 , n = [°] (15.32) 


模式 1 用 第 二 层 的 第 1 个 神经 元 编码 ， 模 式 2 用 第 二 层 的 第 二 个 神经 元 所 编码 。 

图 15-26 说 明了 自 适应 权 值 的 响应 ， 开 始 时 所 有 的 权 值 都 置 为 0。 注 意 到 权 值 矩阵 的 第 
一 行 (w3?14(!t) 和 w?.2(1)) 只 在 n?(1) 是 非 零 的 时 间 里 得 到 调整 并 且 收 敛 到 相应 的 模式 
(nl(£) =0.9 和 ni(t) =0.45)。( 权 值 矩阵 第 一 行 的 元 素 在 图 15-26 中 用 粗 线 表示 。) 而 且 , 权 
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值 矩 阵 的 第 二 行 (zi (OR wG RE ni EIER AEA, FAENA 
的 ml SEX (n1(1) 20.49 A n1( 0) 2 0.9) (AANA TER 15-26 中 用 细 线 表示 )。 











图 15-26 自 适应 权 值 的 响应 


试验 自 适 应 权 值 请 用 Neural Network Design Demonstration Aaaptive Weights 
(nndlSaw) 。 





15.2.4 与 Kohonen 规则 的 关系 
在 上 一 节 我 们 指出 Grossberg 学 习 规 则 是 第 13 章 中 介绍 的 instar 学 习 规则 的 连续 实现 形 
式 。 现 在 我 们 来 证 明 这 个 事实 。 我 们 也 要 证 明 Grossberg 网 络 最 简单 的 形式 是 第 14 章 中 介绍 


的 Kohonen 竞争 网 络 的 一 个 连续 实现 形式 。 
首先 再 写 出 方程 (15.25) 的 Grossberg 学 习 规 则 : 





ie = ani(t){-[,w(t)] + n (OI (15.33) 
如 果 用 
Veto] PG AD - wo) (15.34) 


作为 导数 的 近似 值 ， 则 可 以 把 方程 (15.33) 重 写成 
w(t At) = WD + (At) n2()E- w(t) + n G)I (15.35) 
(比较 这 个 等 式 和 第 13 章 中 由 等 式 (15.33) 表 示 的 instar 规则 。) 如 果 整 理 各 项 ， 此 式 可 以 转 
化 为 
Ww A) = {1 - aCAz) n2(0] iw CO) + aC Az) nC Im C) (15.36) 
为 了 进一步 简化 分 析 ， 假 设 第 二 层 使 用 了 比 线性 快 的 传输 函数 ， 因 此 那个 层 只 有 一 个 神经 元 
能 够 有 非 零 输出 ， 称 之 为 神经 元 i* 。 于 是 只 有 权 值 矩阵 的 广 行 能 够 被 修改 : 
DWG AD) = ll -al ws) + idin (t) (15.37) 
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HP o! 2o(AD n7- (D). 

这 几乎 和 我 们 在 第 14 章 等 式 (14.13) 介 绍 的 竞争 网 络 的 Kohonen 规则 相同 。 获 胜 神经 
元 的 权 值 向 量 ( 有 非 零 输 出 ) 将 向 当前 输入 模式 的 规格 化 形式 n! 移 近 。 

在 本 章 提出 的 Grossberg 网 络 和 基本 的 Kohonen 竞争 网 络 之 间 有 三 个 主要 区 别 。 第 一 ， 
Grossberg 网 络 是 一 种 连续 网 络 (满足 一 组 非 线 性 微分 方程 )。 第 二 ，Grossberg 网 络 的 第 一 层 
自动 规格 化 输入 向 量 。 第 三 ，Grossberg 网 络 的 第 二 层 能 够 实现 一 种 “ 软 ” 竞 争 而 不 是 Koho- 
nen 网 络 的 那 种 胜 者 全 得 的 竞争 。 这 种 软 竞争 使 得 第 二 层 不 只 一 个 神经 元 能 够 学 习 。 这 使 

Grossberg 网 络 像 一 个 特征 图 那样 运行 。 


15.3 小 结 
基本 的 非 线性 模型 
3528 
eS Los) + ple) 
漏 积 分 器 
p + 5 n Di 
O J 
E€dn/dt= -n+p 
并 联 模型 
gD) L(t) + (On(D)pr-(n(D + b-)p- 
输入 基本 并 联 模型 


n(t) 





£dn/dt = -n + (bt - n)p* - (n bp 
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两 层 竞争 网 络 





S'xs! 


-bi 
Edni/dt = - n! + (+b! - n)[+Wip- (n! 4 bo W']p 


dt 
0 0 O 1 1 
+ Wl 0 0 -Wi - l 0 1 
0 0 .1 |] ] .0 
加 强 中 心 抑制 周围 
稳定 状态 神经 元 的 活跃 度 





十 ip Pi s! 
a= pens Bae Én 
第 二 层 
edm/dt = n? + (tb -r)i W] 
P) + Wal} - (€ +- bL WE (n) 
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2x t) 
dt 





z-m)C»Ó-nmvG)il* WIÉ£QÉDQ)) + Wall 


- (W(t) + »»(7 W] (GO) 
第 2 层 





传输 函数 的 选择 


学 习 规 则 





fn). n?(cs) 注释 


完美 地 存储 任 
何 模式 ,但 是 
BAT RE 


胜 者 全 得 ， 
抑制 噪声 ， 
量化 总 活跃 度 


di ;w(:)] 


i = an3(t)i-[,w(t)] e nl (O1 
(连续 的 instar 学 习 ) 
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15.4 例题 
P15.1 演示 漏 积分 器 的 性 能 系数 e 的 作用 ， 见 图 15-27 中 所 示 , 输入 p=1。 
漏 积分 器 
+ n n 
^ ep 
Qo 
Edn/dt=-n+p 
图 15-27 BIRTAR 
解 
漏 积分 器 的 运算 方程 是 


e HLD a(t) + p(t) 


这 个 微分 方程 对 任 一 个 输入 p (4) 的 解 是 
n(1) = e^ n(0) + [fey (et ~t)dt 


如 果 p(t) =1, KÆ 


t 
n(t) = e^" n(0) t Teeter 


我 们 想 说 明 这 个 响应 随 e 而 改变 。 响 应 将 是 
n(t) = erenf0) + (1- e) = e"*(n(00-1) «1 
响应 从 n(0) 开 始 ， 然 后 以 指数 形式 增长 (或 以 指数 形式 训 减 ， 取 决 于 n(0) 是 大 于 1 还 
是 小 于 1) 接 近 n(%) = ! 的 稳 态 响应 。 随 着 减少 ， 响 应 变 得 更 快 (因为 e “衰减 得 更 快 )， 
而 稳 态 值 保持 不 变 。 图 15-28 说 明 当 s= 1, 0.5, 0.25, 0.125, n(0) = 0 时 的 响应 。 请 注意 


稳 态 值 对 每 种 情况 都 保持 1。 只 有 反应 的 速度 发 生变 化 。 














15-28 e 对 漏 积分 器 响应 的 作用 


336 PEE II AR 16 tf 





P15.2 再 次 利用 图 15-27 中 的 漏 积分 器 ， 设 es= 1。 


Ci) 找 出 一 个 近似 于 漏 积 分 器 微分 方程 的 差分 方程 ， 通 过 用 下 式 估 计 导 数 。 
dn(:) nlt * At) - nlt) 
dt ^ At 
(i) 用 A: =0.1， 比 较 这 个 差分 方程 的 响应 和 p(t) = 18I n (0) = 0 微分 方程 的 响应 ， 
在 0< 上 <1 区 域 比 较 这 两 者 。 


(di) 使 用 漏 积分 器 的 差分 方程 模型 ， 证 明 响 应 是 以 前 输入 的 加 权 平 均 。 
解 


Ci) 如 果 对 导数 作 近 似 ， 我 们 发 现 


n(t san) = nft) =~ n(t)+ p(t) 





n(t + At) = n(t)+At|-n(t)+ p(e)} = (1 - At)n(t) + (At) p(s) 
(ii) MRS At = 0.1， 我们 得 到 差分 方程 


n(t 40.1) = 0.9n(t) + 0.1p(t) 
MRS p(t) = 1 和 n(0) =0， 那 么 我 们 可 以 解 n CO 880: 
n(0.1) = 0.9n(0) + 0.1p(0) = 0.1 
n(0.2) = 0.9n(0.1) + 0.1p(0.1) = 0.9(0.1) + 0.1(1) = 0.19 
n(0.3) = 0.9n(0.2) + 0.1p(0.2) = 0.9(0.19) + 0.1(1) = 0.271 
n(0.4) = 0.9n(0.3) + 0.1p(0.3) = 0.9(0.271) + 0.1(1) = 0.3439 
n(0.5) = 0.9n(0.4) + 0.1p(0.4) = 0.9(0.3439) + 0.1(1) = 0.4095 
n(0.6) = 0.4686 — n(0.7) = 0.5217 n(0.8) = 0.5695 
n(0.9) = 0.6126 n(1.0) = 0.6513 
从 P15.1 微分 方程 的 解 是 
n(t) = e"*n(0) + (1— e^7*) = (1- e7?) 
15-29 展示 了 微分 方程 解 与 差分 方程 解 之 间 的 关系 。 曲 线 代表 微分 方程 的 解 ， 圆 圈 代 
表 差 分 方程 的 解 。 这 两 个 解 十 分 接近 ， 并 且 能 够 通过 缩短 间隔 At 而 任意 的 接近 。 





P 


% 0.25 








图 15-29 ”差分 方程 与 微分 方程 的 比较 
Gii) 再 次 考虑 我 们 在 (i) 题 中 得 到 的 漏 积 分 器 的 差分 方程 模型 
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n(t+0.1) = 0.9n(t) + 0.1p(t) 
如 果 以 0 为 初始 条 件 ， 我 们 得 到 
n(0.1) = 0.9n(0) +0.1p(0) = 0.1p(0) 
n(0.2) = 0.9n(0.1) +0.1p(0.1) = 0.910.1p(0)] +0.1p(0.1) = 0.09p(0) + 0.1p(0.1) 
n(0.3) = 0.9n(0.2) + 0.1p(0.2) = 0.081p(0) + 0.095(0.1) +0.1p(0.2) 


n(k0.1) = 0.11(0.9)*! 5(0) + (0.9)75(0.1) += + p((k - 1)0.1)} 
因此 漏 积分 器 的 响应 是 以 前 输入 p(0), p(0.1), «+, p(R - 1)0.1) 的 加 权 平均 值 。 注 
意 当前 的 输入 对 响应 的 贡献 比 早 些 输 和 人 的 大 。 
P15.3 找 出 图 P15.4 所 示 的 并 联网 络 的 响应 ,其 中 e=1, 5+ =1, 6- =1, p* -0, 
P = 10, n(0) 20.5, 


输入 基本 并 联 模型 





edn/df = -n + (b* - n)p* - (n+ b)p 


图 15-30 ”并联 网络 
解 
并 联网 络 的 运算 方程 是 
eR) a(t) + (*- ne) pr (nla) + pr 
对 于 那些 提供 的 参数 值 上 式 变 为 
daU) =- n(t)-(n(t)+1)10 =- 1in(t) - 10 
这 个 方程 的 解 是 


n(t) = e^ n(0) + fene- 10) dr 


或 
n(t) = e-1140.5 + (- 10) (1 -= eli!) 
响应 见 图 15-31. 
对 这 种 响应 有 两 件 事 需要 注意 。 第 一 ， 和 所 有 的 并 联网 络 一 样 ， 响 应 永远 不 会 降 到 
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图 15-31 并 联网 络 响应 
- 以下， 在 本 题 中 就 是 - 1。 随 着 抑制 输入 p -增加 ， 稳 态 响 应 将 会 降低 ， 但 永远 不 可 能 
低 于 -5- 。 响 应 的 第 二 个 特点 是 当 输 入 增加 的 时 候 ， 响 应 的 速度 也 会 随 之 增加 。 例 如 ， 如 
果 输 入 从 p` = 10 增加 到 p^ = 100， 则 响应 将 是 
n(t) = e-10440.5 + (- oa ~ e) 

Ee Ute 六 衰减 更 快 ， 咱 应 将 会 变 得 更 快 。 

v8.4 A Coche BAM 一 层 在 2 个 神经 元 的 情况 下 的 响应 ， 其 中 * bl=1, 7b = 
0, e=1。 输入 向 量 p=[c 2c] 。 假 设 初始 条 件 设 为 0。 演示 。 对 响应 的 作用 。 

解 

在 这 种 情况 下 第 一 层 的 微分 方程 的 是 


dni(t) 1 1 
=- nl(t) + (1 - nl(2))(6) -nt(2c) =- (1+ 3e) nl( +c 


1 
in) =- m(t) + (1 - nÀ(1)) (20) - nj(t)(e) =- (1 + 3e) ni( t) + 2c 


这 些 方程 的 解 是 
ni(t) = e (i+3e ye nl(0) «Je -(1430(1- 9 ( e)dc 


ni(t) = _ e 039 1(0) + fie ~ (1436) C= 9 (2c)dr 


如 果 初 始 条 件 设 为 0 的话， 这些 方程 简化 为 
ni(t) = (; £o Log 5301) 


nh(t) = (7252) a emo» 
注意 第 一 层 的 输出 保留 和 输入 相同 的 相对 强度 ， 神 经 元 2 的 输出 通常 是 神经 元 1 输出 的 
2 倍 。 这 种 情况 与 等 式 (15.13) 一致。 而且， 总 的 输出 强度 ( n!(1) + nd CO) AEM 
+ 41 =1, 如 式 (15.14) 中 所 预见 的 那样 。 随 。 的 增加 ， 它 对 响应 有 两 种 影响 。 第 一 ， 稳 态 值 


略 有 增加 。 第 二 ， 响 应 变 得 更 快 了 ， 因 为 e UO REC c 增加 更 快 。 
P15.5 考虑 Grossberg 网 络 的 第 二 层 。 假 设 第 二 层 的 输入 已 经 加 了 一 - 段 时 间 然 后 才 撤 除 








#15 Ë  Grossberg 44% 











(BA 0). 
(i) 找 出 在 第 二 层 的 输入 被 撤消 之 后 ， 描 述 第 二 层 总 输出 
N?(1) = Ya) 
变化 的 微分 方程 
(ii) 找 出 在 第 二 层 的 输入 对 消 之 后 ， 描 述 第 二 层 相 对 输出 
n^) _ ni(t) 
"i N?(1) 
变化 的 微分 方程 
解 


Ci) 第 二 层 的 运算 由 方程 (15.17) 措 述 : 
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ure =- R(t) 4 bm) + W]E£aG) + Wal | 


- (W(t) +7 > WIP C(t) 
如 果 输 入 被 撤消 ， 则 Wa E0. ATER, RIT AO, MER 
们 设置 激励 偏 置 值 +by 的 所 有 元 素 为 + 多。 神经 元 ;的 响应 由 下 式 给 出 : 


2 
eD L ala) t CD- DI PRDI -DPC 
下 下 





dt 
这 可 以 重新 组 合 产生 
dni(t) 2 21 27,2 2 : 2( 42 
e TEA = nf) e * PATI = 21001 22 OX) 
如 果 定 义 
F(t) = >) f (n5 (0) 
kel 
我 们 可 以 将 方程 简化 为 
2 
inn 223 Ft) nt)  * BLGXO)I 


为 了 得 到 总 活跃 度 ， 这 个 等 式 对 i 求 和 产生 


AND =- (1+ PG) N?G) + * PLE] 


这 个 方程 描述 了 第 二 层 的 总 活跃 度 随 时 间 的 变化 。 
Cii) 相对 活路 度 的 导数 是 


n (t) 1 d; n?(1) 
dimen = d] cole aic aim TO 











如 果 将 以 前 的 bi 我 们 得 到 


| 2 —[N?(t)] 


S20] = iG Mol L- (14 FG) 010) + * PPR) 


2 
"DL (au PACD) NA) et LACH 





— Nt) 


[15-35] 





15-36 
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消去 右边 两 项 产生 
d ， 20, 
eq (AO) = 元 xo EPOR - "2e ep FC) 


或 

+ 50272(t)[ PG) nO) 
N*(1) F) — N?) 
如 果 展 开 括号 中 的 项 ， 可 以 将 此 式 改写 成 一 种 更 为 有 用 的 形式 : 


fa) D 1 “a 
Ft) MOLT POMA ^" 





«S 81(0] = 





aD Na) - 020) F*(t)] 


- Fool g ^al) nit) - a>) go») 


- ep $a OLG) - eoi») 
其 中 
2( 42 
g (ni(t)) = DIU) 


将 这 种 表达 式 与 以 前 的 等 式 相 结合 我 们 得 到 
«Auc =， eso [ ROLE - ect] 


这 种 形式 描述 输出 相对 强度 展开 的 微分 方程 对 于 展示 第 二 层 的 特点 是 很 有 用 的 ， 就 像 我 
1537] 们 在 解 下 一 题目 时 将 会 见 到 的 那样 。 

P15.6 假设 Grossberg 网 络 第 二 层 的 传输 函数 是 线性 的 。 

(Ci) 证 明 当 输 入 被 撤消 之 后 ， 第 二 层 的 相对 输出 不 会 变化 。 

(ii) 在 什么 条 件 下 第 二 层 的 总 输出 在 输入 被 撤消 之 后 会 衰减 到 0? 

解 

Ci) 从 P15.5 中 我 们 知道 在 输入 被 撤消 之 后 第 二 层 的 相对 输出 将 根据 下 式 展 开 : 


s? 


eLO] = * PRAO D RR Lg GG) - QC) 


RAS EHEER f(n) RENN, W 
f'(n) = en 
因此 





gn) = - 
如 果 把 这 个 表达 式 代 人 微分 方程 ， 我 们 得 到 
ed nit] = sco DROL- e 


因而 相对 输出 并 没有 发 生变 化 。 
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Cu) 在 输出 被 撤消 之 后 ，P15.5 中 第 二 层 的 总 输出 按 下 式 展开 ， 
GOD Lo (au PODM) t PIPO) 


2 


WR (n) EXPERS, M 


F(t) = 3ifi(ni() = XD enkli) = ed) na) = N?) 


zl 





因此 微分 方程 可 以 写作 
e dC) =-(1+ cN?(1)) N2(t) ++ b)PICN? (1)1 =- 1] -+ pe + cN? (2)) N2(t) [15:38] 
为 了 找到 这 个 方程 的 平衡 解 ， 我 们 将 导数 置 为 0: 
O=-j1-* be + cN'GO)NPCIOD 
因此 有 两 个 平衡 解 : 


Nt) = 0 或 Nt) = i Ve -1 
我 们 想 知 道 在 哪 种 条 件 下 总 输出 将 会 收敛 到 这 些 可 能 的 解 。 考 虑 两 种 情况 : 
1. lize be 
对 于 这 种 情况 ， 总 输出 的 导数 是 


SN 2—-]1-* be + eN? N?(1) 


对 于 正 的 N*(1) 将 永远 为 负 (回想 第 二 层 的 输出 永远 非 负 )。 因 此 ， 总 输出 将 会 衰减 至 0: 
lim N2(1) = 0 





2. 1«* Pc 
(a) 如 果 N2(0) > (+ b?c -1)/c， 那 么 总 输出 的 导数 将 为 负 ， 直 到 NN?(1)=(* c- 17e, 
当 导 数 变 为 0 时。 因此 
lim N?(1) = (be - 1) 


c 
(b) 如 果 N?(0) < (+ Pe - 1)/c， 那 么 总 输出 的 导数 将 为 正 ， 直 到 Ne2(t) 2 C* 9 e- 1)7e, 
当 导 数 变 为 0 时 。 因 此 


lim N?( 2) = Cre 
所 以 ， 如 果 第 二 层 的 传输 函数 是 线性 的 ， 那 么 如 果 12 * 刀 c， 则 总 输出 将 衰减 至 0。 如 
果 1< + 人 2c， 则 总 输出 将 收敛 于 (* 52c -1)/c。 在 任何 情况 下 ， 相 对 输出 将 保持 不 变 。 


作为 这 些 结果 的 例子 ， 考 虑 如 下 第 二 层 的 方程 组 : 
33D Lo si) (1.5 = aC) Hn DF = EGO nH} 


2 
dni =- ni + (1.5 - RGDA ~ n3(t) E n1COI 
在 这 种 情况 下 ，e=1，* b?= 1.5，c =1， 因 而 1< + 12c。 总 输出 将 收敛 于 
imN2(t) = eD USD gs 
tm i c 1 l 


在 图 15-32 中 我 们 能 够 看 到 第 二 层 对 于 两 组 不 同 初始 条 件 响应 。 
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uL 0.75) "M [o5] 
eo = [5 和 mO)=1 ol 


正如 所 预计 的 那样 ， 两 种 初始 条 件 下 总 输出 都 收敛 于 0.5。 而 且 ， 因 为 两 种 初始 条 件 下 
的 相对 值 是 相同 的 ， 两 种 条 件 下 输出 收敛 于 同样 的 值 。 
"y 一 see 














图 15-32 第 二 层 对 于 线性 P(r) AD 
P15.7 证 明 由 方程 (15.24) 给 出 的 带 豪 减 的 连续 Hebb 规则 与 由 等 式 (13.18) 给 出 的 带 衰 


[540| 减 的 Hebb 规则 等 价 。 





解 
带 训 减 的 连续 Hebb 规则 是 
a t al- w3 (t) + ni(t)nj(t)| 
如 果 我 们 估计 导数 为 
dw2;()) — wi + At) - wi) 
dt ~ At 
则 Hebb 规则 变 为 
w(t + dt) = wht) + adti- wht) + nile) n1(01 
这 个 等 式 可 以 被 重新 组 合 得 到 
w3 (t+ At) = [1- aAt] wi (0) + Atini) nC) 
其 向 量 形式 为 
W(t + At) = [1 - aA ]W (t) + Atin (nn GO | 
与 式 (13.18) 


Wg) =(1- yW(q -1)4 aa( g)p' (q) 
far 比较 ， 可 以 看 出 它们 有 相同 的 形式 。 


15.5 结束语 


本 章 所 介绍 的 Grossberg 网 络 是 受 较 高 等 的 誉 椎 动物 的 视觉 系统 启发 。 为 了 激励 网 络 ， 我 
们 对 主要 视 路 进行 了 简要 描述 。 我 们 还 讨论 了 某 些 视觉 幻觉 ， 帮 助 我 们 理解 视觉 系统 的 机 制 。 

Grossberg 网 络 是 两 层 连续 竞争 网 络 ， 在 结构 和 运算 上 与 第 14 章 介绍 的 Kohonen 竞争 网 
络 十 分 相似 。Grossberg 网 络 的 第 一 层 对 输入 模式 进行 规格 化 。 它 展示 视觉 系统 如 何 使 用 加 
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强 中 心 / 削 弱 局 围 的 连接 方式 和 并 联 模型 以 实现 自动 增益 控制 ， 从 而 规格 化 总 活路 度 。 

Grossberg 网 络 的 第 二 层 实 现 竞 争 , 对 比 增强 输出 模式 并 将 其 存 人 短期 记忆 。 它 使 用 非 
线性 反馈 和 加 强 中 心 / 削 弱 周 围 连 接 模 式 以 实现 竞争 和 存储 。 传 输 函 数 的 选择 及 反馈 连接 方 
式 的 选择 决定 竞争 的 程度 (例如 胜 者 全 得 ,适度 的 对 比 增强 ， 或 对 模式 无 改变 )。 

Grossberg 网 络 使 用 instar 学 习 规 则 调整 权 值 ， 将 原型 模式 以 长 期 记忆 方式 存储 。 当 第 
二 层 实现 “ 胜 者 全 得 ”的 竞争 时 ， 这 种 学 习 规 则 就 与 第 14 章 中 介绍 的 Kohonen 学习 规 则 是 等 
价 的 。 

与 Kohonen 网 络 一 样 Grossberg 网 络 的 关键 问题 是 学 习 过 程 的 稳定 性 。 因 为 更 多 的 输 
和 人 加 给 了 网 络 ， 权 值 矩 阵 可 能 永远 不 会 收敛 。 这 个 问题 在 第 14 章 有 深入 讨论 。 在 第 16 AR 
们 将 介绍 一 类 网 络 设计 来 解决 这 个 困难 : 自 适应 谐振 论 (ART) 网 络 ，ART 网 络 是 本 章 介 绍 
的 Grossberg 网 络 的 直接 后 代 。 在 本 章 并 未 讨论 的 Grossberg 网 络 的 另 一 个 问题 ， 是 实现 网 络 
的 微分 方程 的 稳定 性 。 例 如 ， 在 第 二 层 ， 我们 有 一 个 非 线性 反馈 的 微分 方程 组 。 关 于 这 种 系 
统 的 稳定 性 我 们 能 够 得 出 什么 总 的 结论 ? 第 17 章 将 提供 一 个 对 此 问题 的 深入 讨论 。 
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这 是 第 一 篇 关于 自 组织 特 征 映 射 神经 网 络 的 论文 。 这 种 网 络 是 较 高 级 的 脊椎 动物 视 
觉 皮层 的 模型 。 这 篇 文章 对 后 来 Kohonen 和 Grossberg 关于 特征 映射 的 工作 有 所 影响 。 
习题 

E15.1 考虑 图 15-33 中 所 示 的 漏 积分 器 

Ci) K n COE 21, n(0) 21, ple) 20.5 时 的 响应 。 

(ii) 求 nC Ees 1, n(O)=1, p(t) 22 时 的 响应 。 

(iii) 求 n(4t) 在 e=4，n(0) =1，p(1)=2 时 的 响应 。 

Civ) 检验 对 上 面 几 部 分 的 答案 ， 写 一 个 MATLAB M- 文 件 模拟 漏 积 分 器 。 使 用 

ode45 例 行 程序 。 作 图 表示 每 种 情况 的 响应 。 
漏 积分 器 


^ Ago D" 


\ / 


E£dn/dt--n4p 


: 15-44) 


图 15-33 ” 漏 积分 器 


E15.2 考虑 图 15-34 中 所 示 的 并 联网 络 。 
(i) 求 并 联网 络 在 e=2，61 23, b^ =1，p+ =0，p ”=5，n(0) =1 时 的 响应 。 
(d) 求 并 联网 络 在 s=2，8+ 23, b^ =1，p+ 20, p^ =50, n(0) =1 时 的 响应 。 
(ii) 求 并 联网 络 在 s=2，5+ 23, b^ =1，p+ =50，p”=0，n(0)=1 时 的 响应 。 
(iv) B— MATLAB 的 M- 文 件 以 模拟 并 联网 络 ， 检 验 对 上 面 几 部 分 的 解答 ， 
使 用 ode45 例 行 程序 。 画 出 每 种 情况 的 响应 图 。 
(v) 解释 漏 积分 器 与 并 联网 络 在 运算 上 的 区 别 。 
输入 基本 并 联 模型 





VLA 


£dn/dt = -n + (b*- n)p* - (n + b)p 


图 15-34 并 联网 络 
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E15.3 假设 Grossberg 网 络 的 第 一 层 有 两 个 神经 元 ， 其 中 * 0! 20.5, e=0.5, 输入 向 量 
p=[2 117. 假设 初始 状态 置 为 0。 
Ci) 用 等 式 (15.13) 求 出 第 一 层 的 稳定 状态 的 响应 
Cii) 求 出 第 一 层 的 微分 方程 的 解 。 验 证 稳 态 响应 与 (i) 的 答案 相同 。 
(ii) 检验 你 的 答案 ， 写 一 个 MATLAB 的 M- 文 件 模拟 Grossberg 网 络 的 第 一 层 。 
使 用 ode45 例 行 程 序 。 画 出 响应 图 。 
E15.4 以 输入 向 量 p= [20 10]7 重 做 习题 E15.3。 
E15.5 求 出 描述 第 一 层 总 输出 变化 为 


N'G) = Mal) 


的 微分 方程 (使 用 例题 P15.5 中 所 用 的 技术 )。 15-46 
E15.6 假设 Grossberg 网 络 的 第 二 层 有 2 个 神经 元 , 其 中 P (n)z22n, s21, 1b?=1， 
“b= D。 输 入 已 经 施加 了 一 段 时 间 ， 然 后 撤消 。 
Ci) 稳定 状态 总 的 输出 liim N (1) 是 多 少 ? 
(ii) Æ b =0.25 的 情况 下 重 做 (i)。 
(iii) 检验 前 两 部 分 的 答案 ， 通 过 写 MATLAB M- 文 件 模拟 Grossberg 网 络 第 二 层 
来 进行 。 使 用 ode45 例 行 程序 。 画 出 下 列 初始 条 件 下 的 响应 ; 


(0) = H 和 (0) = Md 


» 


0.1 
E15.7 假设 Grossberg MARK — RHE RR P(n)=ex(n)?, #He=l, * 21. 
(i) 使 用 例题 P15.5 的 结果 ,证明 在 输入 被 撤消 之 后 ， 所 有 第 二 层 的 相对 输出 
将 衰减 至 0， 但 除了 有 最 大 初始 条 件 ( 胜 者 全 得 竞争 ) 的 那个 葵 出 。 
Cii) 34 c 为 何 值 时 总 输出 N*(i) 将 有 一 个 非 零 稳定 点 (稳定 状态 值 )? 
(iii) 如 果 ( 放 的 条 件 得 到 满足 ， 那 么 N2(1) 的 稳 态 值 将 是 多 少 ? 这 依赖 于 初始 
条 件 N?(0) =3 吗 ? 
(iv) 写 一 个 MATLAB M- 文 件 并 模拟 在 c=4 和 N?(0) = 3 时 对 第 二 层 的 总 响 
应 ， 检 验 前 三 部 分 的 答案 。 
E15.8 模拟 Grossberg 网 络 的 自 适应 权 值 的 响应 。 假 设 系数 。= 1。 假 设 两 种 不 同 的 输入 
模式 被 交替 地 提供 给 网 络 每 次 0.2 秒 。 还 假设 与 权 值 的 收敛 相 比 第 一 层 和 第 二 
层 的 收敛 极 快 ， 因 而 神经 元 输出 在 0.2 秒 之 内 实际 保持 不 变 。 第 二 层 和 第 一 层 


对 两 种 不 同 的 输入 模式 的 输出 将 是 
0.8 1 
对 模式 1; v = [oia] = =|, 
0.5 0 





E15.9 用 带 训 减 的 Hebb 规则 ， 即 方程 (15.24) 重 做 习题 E15.8， 而 不 是 用 方程 (15.25) 
的 instar 规则 。 解 释 两 种 响应 之 间 的 差别 。 
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第 16 章 ， 自 适应 谐振 理论 


16.1 目的 


在 第 14 章 和 第 15 章 里 我 们 知道 了 竞争 性 网 络 的 一 个 关键 问题 是 学 习 过 程 的 稳定 性 。 不 
能 保证 ， 当 很 多 输入 加 到 一 个 网 络 时 ， 权 值 和 矩阵 会 最 终 收 敛 。 在 这 一 章 将 给 出 一 个 改进 型 的 
竞争 学 习 ， 即 自 适应 谐振 理论 (ART) ， 它 可 以 用 来 克服 学 习 过 程 的 稳定 性 问题 。 


16.2 理论 和 实例 


第 15 章 提 出 的 Grossberg 网 络 和 第 14 章 的 竞争 性 网 络 的 一 个 关键 问题 是 它们 不 能 总 是 形 
成 稳定 聚 类 (或 分 类 )。Grossberg 证 明了 [ Gros76] 如 果 输 入 模式 的 数量 不 是 太 大 ,或 者 这 些 输入 
模式 不 会 形成 相对 于 第 二 层 神 经 元 个 数 太 多 的 从 类 ， 那 么 学 习 过 程 最 终 是 稳定 的 。 然 而 ， 他 也 
指出 标准 的 竞争 网 络 对 于 任意 的 输入 模式 ， 不 会 有 稳定 的 学 习 过 程 。 学 习 过 程 的 不 稳定 性 源 于 
网 络 的 自 适应 性 (或 可 塑性 )， 这 种 自 适 应 性 导致 先前 的 学 习 内 雁 被 后 面 的 学 习 内 容 破 坏 掉 。 

稳定 性 /可 塑性 ”Grossberg 称 这 个 问题 为 “稳定 性 /可 塑性 二 难 问题 *。 如 何 能 让 系统 只 
接纳 重要 的 新 模式 ， 而 在 响应 不 相关 的 模式 时 仍 保持 稳定 性 呢 ? 我 们 知道 生物 系统 就 非常 擅 
长 这 一 点 。 举 个 例子 ， 哪 怕 你 已 很 久 没 见 过 你 的 母亲 ， 并 在 其 间 见 过 了 许多 新 面孔 ， 但 你 还 
是 能 很 容易 的 认 出 她 的 脸 。 

Grossberg 和 Gail Carpenter 提出 了 一 个 理论 ， 叫 做 自得 应 谐振 理论 (ART)， 用 来 解决 稳定 性 
/可 塑性 两 难 问题 (参见 [ CaGr87a] [CaGr87b], ，[ CaGr90]，[ CaGrRe91] 和 [ CaGrMa92])。ART 
网 络 建立 在 第 15 章 的 Grossberg 网 络 的 基础 之 上 ， 其 主要 革新 是 “期 望 值 "的 使 用 。 当 每 个 输 
人 模式 提供 给 该 网 络 时 ， 将 其 与 该 模式 最 接近 的 匹配 的 原型 向 量 (期 望 值 ) 相 比较 。 如 果 该 模 
式 向 量 与 原型 向 量 不 足以 匹配 ， 那 么 它 将 作为 一 个 新 的 原型 向 量 而 被 选中 。 通 过 这 种 方式 ， 
先前 学 习 的 记忆 内 容 (原型 ) 就 不 会 被 新 的 学 习 内 容 所 破坏 。 

` 讨论 所 有 的 自 适应 谐振 理论 的 变型 超出 了 本 章 的 范围 ， 但 我 们 将 详细 讨论 一 种 ART 网 

络 一 一 ART1( 参 见 [CaGr87a])。 这 种 特别 的 网 络 仅 为 二 值 输入 向 量 而 设计 。 但 是 ， 我 们 可 
以 从 这 个 体系 结构 里 ， 了 解 自 适应 谐振 理论 的 主要 特征 。 


16.2.1 自 适 应 谐振 概述 


基本 的 ART 体系 结构 如 图 16-1 所 示 。 它 是 第 15 章 Grossberg 网 络 的 一 个 变型 (与 图 15- 
16 比较 ) ， 被 用 来 稳定 学 习 过 程 。ART 体系 结构 的 改进 包括 三 个 部 分 : 第 二 层 (L2) 到 第 一 
层 (LI1) 的 期 望 值 、 调 整 子 系统 和 增益 控制 。 在 这 一 节 里 ， 我 们 将 描述 ART 系统 的 一 般 操 
fe; 在 以 后 的 几 小 节 里 ， 我 们 将 详细 讨论 每 一 个 子 系统 。 

回顾 第 15 章 我 们 知道 ， Grossberg 网 络 的 L1 — L2 XE EJ instar 形态 ， 用 来 执行 聚 类 (或 
分 类 ) 操 作 。 当 一 个 输入 模式 被 提交 给 网 络 时 ， 它 (经 过 规格 化 后 ) 将 与 LI - L2 50858 PER 
乘 。 然 后 ， 在 第 二 层 就 会 通过 竞争 决定 权 值 矩阵 的 娜 一 列 最 接近 输入 向 量 ， 这 一 列 即 被 移 向 
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图 16-1 基本 的 ART 体系 结构 


输入 向 量 。 在 学 习 结 束 后 ，L1 - L2 权 值 矩阵 的 每 一 列 都 是 一 个 原型 模式 ， 它 将 代表 输入 向 
量 的 一 个 育 类 (或 分 类 )。 

在 ART 网 络 里 ， 学 习 也 发 生 在 从 第 二 层 到 第 一 层 的 一 系列 反馈 连接 中 。 这 些 连 接 是 
outstar 形态 (参见 第 13 章 )， 用 来 进行 模式 回忆 。 当 第 二 层 的 一 个 节点 被 激活 时 ， 它 将 在 第 
一 层 对 应 一 个 原型 模式 (期 望 值 )。 第 一 层 接着 将 期 望 值 与 输入 模式 进行 比较 。 

当期 望 值 与 输入 模式 不 能 进行 密切 匹配 时 ， 调 整 子 系统 将 重 置 第 二 层 。 这 种 重 置 将 取缔 
当前 的 优胜 神经 元 ， 同 时 取消 当前 的 期 望 值 。 当 上 次 的 优胜 神经 元 被 取缔 之 后 ， 第 二 层 里 将 
进行 一 次 新 的 竞争 。 第 二 层 里 的 新 的 优胜 神经 元 又 通过 L2 - L1 连接 向 第 一 层 产生 一 个 期 户 
值 。 这 个 过 程 会 持续 到 L2 - L 期 望 值 与 输入 模式 足够 密切 地 匹配 时 才 结 束 。 

在 下 面 几 小 结 里 ， 我 们 将 分 析 ART 系统 的 每 一 个 系统 一 一 这 些 子 系统 应 用 到 一 个 特殊 
的 ART 网 络 ARTI1([CaGr87a])。 我 们 会 首先 描述 反映 这 些 子 系统 操作 的 微分 方程 ， 然 后 导 
出 每 个 子 系统 稳 态 响应 。 最 后 ， 总 结 ARTI 系统 的 所 有 操作 。 


16.2.2 第 一 层 


第 一 层 的 主要 用 途 是 比较 输入 模式 和 来 自 第 二 层 的 期 望 值 模式 。( 在 ARTI 里 ， 两 种 模 
式 都 是 二 值 的 。) 如 果 模 式 不 能 密切 匹配 ,那么 调整 子 系统 会 重 置 第 二 层 。 如 瞪 模 式 能 足够 密 
切 地 匹配 ， 第 一 层 将 结合 期 望 值 和 输入 形成 一 个 新 的 原型 模式 。 

ARTI 网 络 的 第 一 层 如 图 16-2 所 示 ， 它 非常 近似 于 Grossberg 网 络 的 第 一 层 (参见 图 15- 
17)。 不 同 之 处 在 于 对 并 联 模型 的 激励 输入 和 抑制 输入 。 对 于 ARTI 网 络 ， 第 一 层 里 不 执行 
规格 化 过 程 ， 所 以 我 们 不 能 从 输入 向 量 中 得 到 “加 强 中 心 / 抑 制 周围 (on-center/off-surround) 
的 连接 。ARTI1 第 一 层 的 激励 输入 由 输入 模式 和 L1 - L2 期 望 值 结 合 构成 。 扣 制 输入 则 由 来 
自 第 二 层 的 增益 控制 信号 构成 。 下 面 我 们 将 解释 这 些 输入 怎样 在 一 起 工作 。 

第 一 层 的 运算 方程 为 


eI) 2 a) + Cb W(t) ip Wal (16.1) 


dt 
- (a! (i) +> b)[- W' ja? (i) 
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增益 控制 Slxs2 


€ dni/dt = - n! + (+b! - n) { p + Wa2} - (n! « -bopWi]a? 


图 16-2 ART1 网 络 的 第 一 层 
而 第 一 层 的 输出 计算 为 


其 中 


al = hardlim + (n!) (16.2) 


1, n>0 
0, nzO 

方程 (16.1) 是 并 联 模型 ， 拥 有 激励 输入 p + Wel), "E dA Io] EE E; L2 — L1 82818 
的 和 。 例 如 ， 假设 第 二 层 的 第 ; 个 神经 元 在 竞争 中 获胜 ， 那 么 它 的 输出 是 1， 而 其 他 神经 元 
的 输出 是 0。 由 此 ， 我 们 得 到 


hardlim + (n) = { (16.3) 


0 
0 

wig = [wel wet wet SIL iS we (16.4) 
1 


其 中 ow?! 是 矩阵 WRU fF, (ERE W 1 利用 outstar 规则 训练 ， 这 会 在 后 面 的 小 节 里 介 


绍 。) 现 在 我 们 可 以 看 到 
p+ Wa = p+ WW’ (16.5) 


因此 对 第 一 层 的 激励 输入 是 输入 模式 与 L2 - L1 期 望 值 的 和 。L2 - L1 矩阵 的 每 一 列 代表 了 
一 个 不 同 的 期 望 值 (原型 模式 )。 以 后 我 们 会 看 到 ， 第 一 层 利用 AND 操作 将 输入 模式 与 期 户 
值 结合 起 来 。 

对 第 一 层 的 抑制 输入 即 是 增益 控制 项 [ W Ja C), HP 


-Ww -| (16.6) 
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可 见 ， 对 第 一 层 每 个 神经 元 的 抑制 输入 即 为 第 二 层 所 有 输出 的 总 和 。 既 然 我 们 在 第 2 BRA 
TEKLIF (winner - take - all) 的 竞争 方法 ， 那 么 每 当 第 二 层 处 于 活动 状态 时 ， 竞 争 后 就 
有 一 个 而 且 只 有 一 个 R 的 非 零 元 素 。 因 此 ， 对 第 一 层 的 增益 控制 输入 ， 当 第 二 层 活跃 时 为 
1， 当 第 二 层 不 活跃 (所 有 神经 元 的 输出 都 为 0) 时 为 0。 增益 控 制 的 目的 在 我 们 分 析 第 一 层 的 
稳 态 行为 时 将 会 很 明显 。 

稳定 状态 分 析 

第 一 层 中 神经 元 i 的 响应 可 描述 为 
ed al £C nl){p, + Dt} le DSa ? (16.7) 
其 中 e << 1， 所 以 短期 记忆 轨迹 (short-term memory trace) (神经 元 的 输出 ) 的 改变 比 长 期 记 tZ 
HLE (long-term memory trace) (4X (AAEM) HK) ERG Ze 

我 们 想 检查 这 个 系统 在 两 种 情况 下 的 稳 态 响应 。 第 一 种 情况 是 第 二 层 不 活跃 ， 因 此 对 所 
有 的 了 有 3? = 0。 第 二 种 情况 里 第 二 层 是 活跃 的 ， 因 此 有 一 个 神经 元 的 输出 为 1， 所 有 其 他 
神经 元 的 输出 为 0。 

考虑 第 二 层 不 活跃 的 第 一 种 情况 。 因 为 所 有 oF = 0， 所 以 方程 (16.7) 简 化 为 





en pil (16.8) 
在 稳定 状态 (dni(:)/dt =0) 时 ,， 有 
0--ni «C b! -nl)p=- (1+ pO ni +? b! p, (16.9) 
如 果 求 解 稳定 状态 时 神经 元 输出 ni, RITER 
+ bip, 
l+ p; 


因此 ， 如 果 p,-0, 则 中 =0; 如 果 p, 21, M 中 = * 681/2 >0。 由 于 我 们 选择 第 一 层 的 转移 
函数 为 函数 hardlim * ， 故 得 
al = p (16.11) 
所 以 ， 当 第 二 层 不 活跃 时 ， 第 一 层 的 输出 与 输入 模式 相同 。 
现在 我 们 来 考虑 第 二 层 活路 的 第 二 种 情况 。 假 如 神经 元 j 是 第 二 层 的 优胜 神经 元 。 那 么 
aj =1 H aĝ =0 (k#j)o 此 时 方程 (16.7) 简 化 为 


本 (16.12) 
在 稳定 状态 (dn!1(1)/dt = 0) 时 ， 有 
02- nl e (t b! -nlp + will - (ni e 7 87) 


16.13 
=- (1+ p+ wip 4+1)nj + (* b'Cp; + w) - > 8) ) 
求解 稳定 状态 时 神经 元 输出 n!， 我 们 得 到 
* bp, + wij) -7 
ni = pt (16.14) 
2 + p wi 


回忆 第 一 层 应 该 结合 输入 向 量 和 来 自 第 二 层 的 期 望 值 (表示 为 3 ')。 由 于 我 们 处 理 的 是 
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350 AP LE IL AR 1 tf 








二 值 模式 (无 论 是 输入 还 是 期 望 值 ) ， 我 们 可 以 利用 逻辑 AND( 与 ) 运 算 结合 这 两 个 向 量 。 换 
句 话说 ， 我 们 希望 LE p, 或 zw 各 中 有 一 个 为 0 时 小 于 00， 中 TE p, M HEAT LIAC. 
0。 把 这 个 条 件 用 于 等 式 (16.14) 中 ,我们 得 到 如 下 式 子 : 


*b(2--bs»0 (16.15) 
*b--b'«0 (16.16) 

合 在 一 起 即 为 
*b(2)»2-b >t! (6.17) 


例如 ， 我 们 令 + 651 =1 且 -65'=1.5， 即 满足 上 述 条 件 。 
因此 ， 如 果 式 子 (16.17) 得 到 满足 ， 并 且 第 二 层 神经 元 j 处 于 活跃 状态 ， 那 么 第 一 层 的 
输出 为 


a = pw" (16.18) 
其 中 仆人 代表 逻辑 与 运算 。 
注意 ， 我 们 需要 增益 控制 来 实现 AND 运算 。 考 虑 等 式 (16.14) 的 分 子 : 
* bp, + wł) -5b (16.19) 


其 中 项 - 51 与 增益 控制 项 相 乘 ， 该 项 这 里 为 1。 如 果 整 个 这 一 项 不 存在 ， 那 么 式 子 (16.19) 
将 会 大 于 0( 因 此 ni 将 大 于 0) ， 而 不 管 p 或 w?i 是 否 大 于 0。 这 就 成 了 OR( 或 ) 运 算 ， 而 不 
是 AND( 与 ) 运 算 。 我 们 在 讨论 调整 子 系统 时 将 会 看 到 ， 第 一 层 执 行 AND 运算 将 是 关键 。 
当 第 二 层 不 活路 时， 增益 控制 项 为 0。 这 是 必须 的 ， 因 为 我 们 希望 在 第 二 层 没 有 期 望 什 
激活 的 这 种 情况 下 ， 第 一 层 仅 对 输入 模式 作出 响应 。 
小 结 第 一 层 稳定 状态 运算 : 
若 第 二 层 不 活跃 ( 即 所 有 a3 =0), 


a=p (16.20) 
若 第 二 层 活 牙 ( 即 有 一 个 of = 1)， 
a=pNw (16.21) 
为 了 说 明 第 一 层 的 运算 ， 假 设 网 络 参数 如 下 : 
e20.1,* b! 2 1,7 b = 1.5 (16.22) 
再 假设 第 二 层 里 有 两 个 神经 元 ， 输 入 向 量 有 两 个 元 素 并 且 有 如 下 权 值 矩阵 和 输入: 
we -| | 和 p=| | (16.23) 


如 果 我 们 采用 第 二 层 是 活跃 的 这 种 情况 ， 且 第 二 层 第 二 个 神经 元 赢得 了 竞争 ， 则 第 一 层 
的 运算 方程 为 


dni 1 1 2:1 l 
(0.1) dont (1- nDÍp: + wi2]- (ni + 1.5) (16.24) 
=-n}+(1-n}){O+1] -(n} & 1.5) 2 - 3n] - 0.5 
dn} 1 1 2:1 1 
(0.1) dt =- n} + (1- n}){ p2 + w32}- (ni 1.5) (16.25) 


=- n} 4 (40 - aT 41} - (nj £ 1.5) 2- 4n] - 0.5 


化 简 得 
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d 1 

u = — 30n! -5 (16.26) 
dn} 

di =- 40n} 45 (16.27) 


在 这 个 简单 的 例子 中 我 们 可 以 求 出 这 两 个 方程 相近 形式 的 解 。 如 果 我 们 假设 两 个 神经 元 
都 从 零 初 值 开 始 ， 那 么 结果 是 
ni(i) --lü-em] (16.28) 


nit) = 40 ML (16.29) 


它们 的 图 形 见 图 16-3 








n, (t) 

















图 16-3 第 一 层 的 响应 | 

注意 ，ni(i) 收 敛 于 一 个 负 值 ， 而 nl DUESCE— IER. Ait, al COSSSICF 0, al 

(1 站) 收敛 于 1( 回 忆 第 一 层 的 转移 函数 为 hardlim* )。 这 与 我 们 的 稳 态 分 析 一 致 (参见 等 式 
(16.21))， 因 为 


na 


试验 ART1 网 络 的 第 一 层 请 用 Neural Network Design Demonstration ARTI Layer 
1 (nndi6all). 





16.2.3 第 二 层 

ART! 网 络 的 第 二 层 与 第 15 章 的 Grossberg 网 络 第 二 层 几 乎 相同 。 它 的 主要 目的 在 于 对 
比 增强 它 的 输出 模式 。 对 于 我 的 ARTI1 网 络 的 实现 ， 对 比 增强 将 是 “ 胜 者 全 得 "的 竞争 方式 ， 
所 以 只 有 接受 到 最 大 输入 的 神经 元 才 会 有 非 零 输出 。 

Grossberg 和 ART! 网 络 的 第 二 层 之 间 有 一 个 主要 的 差别 。4RT1 的 
第 二 层 利 用 了 一 个 可 被 重 置 的 积分 器 。 在 这 种 积分 器 之 中 ， 如 图 164 n n 
所 示 ， 每 当 a 信号 变 为 正 值 的 时 候 ， 任 何 正 的 输出 都 会 被 重 置 为 0。 这 
种 被 重 置 的 输出 将 保持 抑制 一 段 很 长 的 时 间 ， 以 致 它们 不 会 被 驱动 到 0 


ao 


图 16-4 
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之 上 。( 一 段 “ 长 ”时间 指 的 是 直到 充分 的 匹配 发 生 并 且 权 值 已 被 更 新 。) 

在 最 初 的 ARTI 论文 中 ，Carpenter 和 Grossberg 提出 重 置 机 构 用 一 个 门 偶 极 子 场 来 实现 
[CaGr87]。 他 们 后 来 提出 了 一 个 更 为 复杂 的 生物 学 模型 ， 在 他 们 的 ARTS 体系 结构 中 使 用 
了 化 学 的 神经 传送 器 [CaGr90]。 就 这 里 的 目标 来 说 ， 我 们 不 会 涉及 专 三 的 生物 学 实现 方法 ， 

图 16-5 完整 显示 了 ARTI) 网 络 的 第 二 层 。 青 次 指出 ， 它 与 第 15 章 的 Grossberg 网 络 第 
二 层 几 乎 相同 (参见 图 15-20)， 除 了 那个 可 重 置 的 积分 器 以 外 。 重 置信 号 a? 是 调整 子 系统 的 
输出 ， 这 个 我 们 将 在 后 面 的 小 节 里 讨论 。 无 论 何 时 第 一 层 的 输入 信号 与 L2 - L1 期 望 值 发 生 
不 匹配 ， 它 都 将 导致 重 置 。 

ARTI 网 络 第 二 层 与 Grossberg 网 络 第 二 层 的 另 一 个 小 区 别 是 ARTI 中 用 到 了 两 个 传输 函 
数 。 传 输 函 数 中 ( 亚 ) 用 于 “加 强 中 心 / 抑 制 周围 ” 式 反馈 连接 ， 此 时 第 二 层 的 输出 被 计算 为 e = 

-16-10 hardlim* (2?)。 第 二 个 传输 函数 的 使 用 是 因为 我 们 希望 第 二 层 的 输出 信号 是 -个 二 值 信和 号。 


第 2 层 





€ dn?/dt = -m+ (+b? - n?) {[+W2]f2(n2) + Wi2al} 
- (m? + “b?) [W2] f2(n2) 


图 16-5 ARTI 网 络 的 第 二 层 
第 二 层 的 运算 方程 为 
SECO Lc ge) uoa caf) E WIE) + Wa | 


dt 

- (mt) + ~ b) W]É(QY (£)) (16.31) 
这 是 一 个 并 联 模型 ， 上 共有 激励 输入 1+ W? ]É 2 (2)) + Wa, rb * Wi 提供 了 "加 强 中 
心 " 的 反馈 连接 (与 第 15 章 的 Grossberg 网 络 第 一 层 和 第 二 层 相同 ， 参 见方 程 (15.6))，Wi” 
由 自 适应 权 值 构成 ， 类 似 于 Kohonen 网 络 的 权 值 。 它 们 按照 instar 规则 训练 ， 这 在 以 后 的 一 

小 节 中 将 会 看 到 。 在 训练 后 ，W' 的 各 行将 代表 各 个 原型 模式 。 
并 联 模型 的 抑制 输入 是 FE- WP (m (0), Hob W 提供 “抑制 周 因 ” 的 反馈 连接 (与 
Grossberg 网 络 的 第 --、 二 层 相 同 ， 见 方程 (15.7) )。 为 了 演示 第 二 层 的 执行 过 程 ， 考 虑 拥有 

16-0 两 个 神经 元 的 一 层 ， 具 有 
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wo Pl). Hla PGW?” 0.5 0.5 
f= OTB -| b -[i]w 7 Ca -| 1 0 | (16.32) 
un 10( 3)? 0 
2 n), nz 
JP) = | 0, nc (16.33) 
该 层 的 运算 方程 为 
(0.1) di) =— nil) (0 - n1GO) E f OG) + Gw?) Tai} 
dt (16.34) 
- (GO + DF (n3(t)) 
(0.1) dni(t) =— nj) + (1 naD Cn2CGO) + Gw?) Tal} 
dt ? ? ? z (16.35) 


- (n3(t) + Df? G3) 

它们 在 形式 上 第 15 S£ Grossberg 第 2 AH PIF (5:758 (15.20) RU; (15.21) AH, RT 
=1 外 。 这 人 允许 nf(t) 和 nn2(1) 的 范围 在 -1 与 +1 之 间 。 

第 二 层 的 输入 是 原型 模式 ( 权 值 矩阵 Wi 的 各 行 ) 与 第 一 层 输出 的 内 积 。( 这 个 权 值 矩阵 的 
各 行 已 经 规格 化 ， 在 以 后 的 一 小 节 中 会 有 解释 。) 最 大 的 内 积 与 最 接近 第 一 层 输 出 的 原型 模式 相 
对 应 。 随 后 在 第 二 层 里 发 生 神 经 元 竞争 。 传 输 函 数 户 (m) 被 选 作 为 一 个 “ 快 于 线性 ”的 传输 函数 
(参见 第 15 章 15.2.3 节 中 “传输 函数 的 选择 ”对 于 挛 (m) 的 影响 的 讨论 )。 这 个 选择 强迫 拥有 最 
大 输入 的 神经 元 具有 正 的 n 值 ， 而 其 他 神经 元 具有 负 的 n 值 (适当 选择 网 络 参 数 )。 竞 争 结束 后 ， 
由 于 采用 了 传输 函数 hardlim * 计算 层 的 输出 ， 故 有 一 个 神经 元 的 输出 为 1， 而 其 他 的 神经 元 输出 
都 为 0。 

16-6 显示 当 输 入 向 量 为 al = [1 0]7 HASH. WMS AHS al 而 具有 
较 之 第 一 行 更 大 的 内 积 ， 所 以 神经 元 2 赢得 了 竞争 。 在 稳定 状态 下 ，n2(i) 具 有 一 个 正 的 
值 ， 而 nf(1) 具 有 一 个 负 的 值 。 稳 定 状态 下 第 二 层 的 输出 因而 是 


(16.36) 





























图 16-6 第 二 层 的 响应 
我 们 可 以 小 结 第 二 层 的 稳定 状态 运算 如 下 : 
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) 人 052 ((,W''?) 7a! = max((;w'’?) a! ]) 
0, 其 他 

试验 第 二 层 ARTI 网 络 请 用 Neural Network Design Demonstration ARTI Layer 2 
(nnd16al2) 。 


(16.37) 





16.2.4 调整 子 系统 


ART 体系 结构 的 一 个 关键 元 素 是 “调整 子 系统 "。 它 的 作用 是 判定 L2 - L1 期 望 值 与 输 
人 模式 之 间 是 否 充 分 匹配 。 当 不 充分 匹配 时 ， 调 整 子 系统 会 向 第 二 层 发 出 一 个 重 置 信号 。 重 
置信 号 将 导致 前 一 个 获胜 神经 元 长 时 期 抑制 ， 从 而 使 男 一 个 神经 元 在 竞争 中 获胜 。 
116-13] 图 16-7 显示 了 调整 系统 。 


调整 子 系统 
Am Y 
p Pw 
1x5! 





E€ dn0/dt = -n0 + (*bo - no) [*Wo]p - («9 + ~b0)[“Wo]a! 


图 16-7 ARTI 网 络 的 调整 子 系统 


调整 子 系统 的 运算 方程 为 
in z- nt) + C b? — n(t))1* Wp - (90) +7 89)17 Wa] (16.38) 
这 是 一 个 并 联 模型 ， 具 有 激励 输入 + Wip， 其 中 


+W = [a a … a] (16.39) 

因此 ， 此 激励 输入 可 写成 | 
‘Wp ela a = alp = aX p, = ao (16.40) 

其 中 最 后 一 个 等 式 成 立 是 因为 p 是 一 个 二 值 向 量 。 0 


调整 子 系统 的 抑制 输入 是 -Wia!， 其 中 
-W=[8 B -- gl] (16.41) 


因此 ， 抑 制 输入 可 以 写成 
1614] -Wa = [B B … Bla = 23 al(t) = gla | (16.42) 
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一 旦 激励 输入 大 过 抑制 输入 ， 调 整 子 系统 就 会 被 驱动 。 考 虑 下 面 的 稳 态 运算 : 
O=- n+ (+ 09 — n9) la| p] 1 - (2° « -2 人 全 








(16.43) 
=- Qa] p[" « Bj a! | n? « * 29a] p] - 7 elal’ 
若 求解 0 ， 得 到 
十 b? (a ?) _- 5° 1 ?) 

" |p| in | (16.44) 

G + a] pl + gla 1^? 

4*b 2-21, WA alp|?-gla'|’>omt, n°>0, 也 即 

0 alal? ao 
no >0, 87-5 <%= (16.45) 

[pl — 8 





警戒 ”由 于 oo = hardlim +(no)， 故 上 式 即 为 导致 第 二 层 重 置 的 条 件 。 项 o BKI EA 
参数 ， 必 须 落 在 范围 0 <o < 1 内 。 如 果 和 警戒 值 接近 1 ， 那 么 除非 a 接近 于 p， 否 则 将 引起 重 
置 。 如 果 警 戒 值 接近 0，al 不 接近 p 也 能 防止 重 置 。 警 戒 参数 决定 了 由 原型 向 量 创建 的 分 类 
(或 聚 类 ) 的 粗略 情况 。 

回忆 等 式 (16.21)， 无论 何 时 第 二 层 处 于 活路 状态 ,都 有 al pN REXA |px 
于 等 于 |a | 。 当 每 个 输入 p 有 1 MMA Ww 也 有 1 时 ,它们 两 个 相等 。 因此， 4p 
Aw 的 不 匹配 足够 显著 时 ， 调 整 子 系统 会 导致 重 置 的 发 生 。 发 生 重 置 所 需要 的 不 匹配 程 
度 由 警戒 参数 p 决 定 。 

为 了 演示 调整 子 系统 的 运算 过 程 ， 假设 e=0.1, a=3, B=4 (p=0.75)， 








OEREN 
p=| | H a = 0 (16.46) 
则 运算 方程 变 为 
dn? (1) - 
(0.1) dí =T n'i) e (1- n^(1)) 13(p, 十 pj)! (16.47) 
- (nt) + 1)14Cal + al] 
或 
dati 110n° 
= - 110n°(£) + 20 (16.48) 


di 

16-8 画 出 了 响应 过 程 。 此 例 中 ,由 于 z( 区 为 正 ， 所 以 一 个 重 置信 号 将 被 发 向 第 二 
层 。 进 一 步 ， 因 为 警戒 参数 o= 0.75， 而 且 p 只 有 两 个 元 素 ， 所 以 无 论 什 么 时 候 p 和 a! 不 相 
等 ， 都 会 发 生 重 置 。( 如 果 警 戒 参 数 被 设 成 = 0.25， 由 于 | 和 |] pl s 1/2， 故 对 于 等 式 
(16.46) 中 的 p fl a', 将 不 会 发 生 重 置 。) 

对 稳定 状态 下 调整 子 系统 的 运算 小 结 如 下 : 

NELLE n" 
0, 其 他 

试验 调整 子 系统 请 用 Neural Network Design Demonstration Orienting Subsystem 
(nndl6os) 。 
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图 16-8 调整 子 系统 的 响应 


16.2.5 学 习 规则 : L1 - L2 


ARTI 网 络 有 两 个 分 别 的 学 习 规 则 : 一 个 用 于 LI - L2 连接 ， 一 个 用 于 L2 - L1 连接 。 
L1- L2 连接 使 用 一 种 instar 学 习 过 程 学 习 识别 一 系列 原型 模式 。L2 - L1 连接 收 使 用 一 种 
outstar 学 习 过 程 重演 (或 回忆 ) 一 系列 原型 模式 。 这 一 节 里 ， 我 们 将 讨论 LI- L2 instar 学 习 
规则 ， 下 一 节 将 讨论 L2- L1 outstar 学 习 规则 。 

谐振 ”我们 应 该 注意 到 Li - L2 连接 与 L2 - L1 连接 是 同时 更 新 的 。 每 当 输 入 模式 和 期 
ACE Se SLA, CAESAR, WOA W 1 都 会 被 更 新 。 这 个 匹配 过 程 ， 
以 及 随后 的 适应 过 程 ， 被 称 为 谐振 ， 自 适应 谐振 理论 由 此 而 得 名 。 

1. 子 集 / 超 集 二 难 问题 

除了 一 个 主要 区 别 外 ，ART1 网 络 L1 - L2 连接 的 学 习 与 15 章 的 Grossberg 网 络 学 习 十 
分 接近 。 在 Grossberg 网 络 中 .输入 模式 在 第 一 层 会 被 规格 化 ， 因 此 所 有 的 原型 模式 都 有 相 
等 的 长 度 。 在 ARTI 网 络 的 第 一 层 中 并 没有 规格 化 过 程 。 因 此 当 某 个 原型 模式 是 另 一 个 原型 
模式 的 子 集 时 就 会 出 现 问题 。 例 如 ， 假 设 L1- L2 连接 和 矩阵 为 











we o] (16.50) 
1 1 1 
那么 其 原型 模式 为 
1 1 
pw? = H ow? = ] (16.51) 
0 1 
Aly, w pA 1 的 地 方 .-w'“ 中 也 有 1， 我 们 就 认为 ,w “是 -wi 的 子 集 。 
如 果 第 一 层 的 输出 为 
1 
al = ] (16.52) 
0 





那么 第 二 层 的 输入 为 
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(16.53) 





1 

wa =|! 1 中 
1 1 1 

0 


这 时 ， 两 个 原型 向 量 都 有 与 a 相同 的 内 积 ， 即 使 第 一 个 原型 与 a! 相等 而 第 二 个 不 等 。 
这 就 叫做 " 子 集 / 超 集 二 难 问题 ”。 

子 集 / 超 集 二 难 问 题 的 一 个 解决 办 法 是 对 原型 模式 进行 规格 化 。 即 是 说 ， 当 一 个 原型 模 
式 具 有 很 大 数量 的 非 零 项 时 ， 每 个 项 的 量 值 应 该 被 减 小 。 比 如 说 ， 仍 用 上 面 遇 到 的 问题 ， 我 
们 可 以 将 L1 - 12 和 矩阵 改变 如 下 : 





l l o 
1:2 .— 2 2 
wi? = (16.54) 
i 1 1 
3 3 3 
则 第 二 层 的 输入 将 是 
i i o lil 1 
12,1 _ - 
W!?3! = 1|2/2 (16.55) 
1 1 1 3 
3 3 3--0 




















现在 我 们 得 到 结论 : 第 一 个 原型 与 l 有 较 大 的 内 积 。 第 二 层 的 第 一 个 神经 元 将 被 激活 。 
在 第 15 章 的 Grossberg 网 络 中 我 们 利用 在 第 一 层 里 规格 化 输入 模式 得 到 规格 化 的 原型 模 
st. E ARTI 网 络 中 ， 利 用 L1 - L2 学 习 规 则 中 的 "加强 中 心 / 抑 制 周围 "的 竞争 来 规格 化 原 


型 模式 。 
2. 学 习 规则 
W'5" 的 学 习 规则 是 
dj ;w?(1)] 


à - wg * Wla! Co) 


= alit b 


- lw Ct) «7 bti W]al(i)] (16.56) 
其 中 
1 0 1 0 0 1 1 
1 
*b = ,b= 0 ,+W = ! 0 ,Wz l 
1 0 0 0 1 1 1 0 
(16.57) 


这 是 一 个 instar 学 习 规则 的 改进 型 。 当 第 二 层 的 神经 元 i ERR, WPR iT; w 在 
al 的 方向 移动 。 方 程 (16.56) 与 标准 的 instar 学 习 过 程 的 区 别 是 ;w “的 元 素 参 与 竞争 ， 因 此 
被 规格 化 。 在 方程 (16.56) 右 边 的 括号 里 ， 我 们 看 到 了 一 个 并 联 模 型 的 形式 ， 它 具有 来 自 a 
的 加 强 中 心 /抑制 周围 的 输入 连接 。 激 励 偏 置 值 是 *b= 1( 一 个 全 为 1 的 向 量 )， 而 搞 制 偏 置 
值 是 -b = 0， 它 们 保证 了 ;w! 的 元 素 在 0 与 1 之 间 。( 回 忆 我 们 在 15 章 对 并 联 模 型 的 讨论 。) 

快速 学 习 ”为 证 实 方程 (16.56) 产 生 了 规格 化 的 原型 模式 。 我 们 来 考察 一 下 其 稳 态 运算 。 
为 了 分 析 ， 我 们 假定 第 一 层 和 第 二 层 的 输出 在 权 值 到 达 稳 定 状态 前 保持 恒定 不 变 。 这 被 称 为 
快速 学 习 。 


| 


v 
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对 元 素 wl TE 


1:2 
dw iis) = aCe) - wi?(t))gal(t) - «ico Sao] (16.58) 
kj 
若 假 设 在 第 二 层 (a?(+) = 1) 神 经 元 i 是 活路 的 ， 并 且 在 方程 (16.58) 中 置 导数 等 于 0， 则 有 


0 = [0 - vita! - wl Dall (16.59) 
要 找 出 w!3 的 稳定 状态 值 ， 我 们 考虑 两 种 情况 。 第 一 ， 假 设 a} = !。 于 是 有 
0-(-wi2t-wPal^-Ds-(Qaelal-Duwi2«t (16.60) 


i, 











或 者 
wh? = 一 人 (16.61) 
c+ al - 1 
(注意 ， 由 于 a! 是 一 个 二 值 向 量 , SOR 中 = [a ^2 
另 一 种 情况 ， 若 oj = 0， 则 等 式 (16.59) 简 化 为 
0=- wl?|al’ (16.62) 
或 
wit = 0 (16.63) 
归纳 等 式 (16,61) 和 (16.63) 得 
1:2 ka 
jw? = 一 一 一 一 (16.64) 


t+lal -1 
其 中 %>1， 以 保证 分 母 不 等 于 0。 

这 样 ， 原 型 模式 会 是 经 过 规格 化 的 ， 这 就 解决 了 子 集 / 超 集 二 难 问题 。( 这 里 的 “规格 
化 "， 并 不 意味 着 所 有 的 原型 向 量 都 具有 单位 欧 几 里 德 距离 长 度 ， 而 只 是 简单 地 指 W 含有 
较 多 非 零 元 素 的 各 行将 具有 较 小 的 量 值 。 在 本 例 中 ， 含 有 较 多 非 零 元 素 的 向 量 实际 上 可 以 比 
含有 较 少 非 零 元 素 的 向 量具 有 更 短 的 长 度 。) 


16.2.6 学习 规 则 : L2- L1 


在 ARTI 体系 结构 中 ，L2 - L1 连接 W ?是 用 outstar 规则 训练 的 。L2 - L1 连接 引 在 回 
忆 相 应 的 原型 模式 (期 望 值 ) ， 以 便 它 可 以 在 第 一 层 中 与 输入 模式 相 比 较 或 结合 。 当 期 望 值 与 
输入 模式 不 匹配 时 ， 一 个 重 置信 号 传 到 第 二 层 ， 于 是 一 个 新 的 原型 模式 将 被 选中 (正如 我 们 
前 面 几 节 里 讨论 的 那样 )。 
W12 的 学 习 规则 是 一 个 典型 的 outstar 方程 : 
dwr o], 4 | 
—4 ^ a DL- w(t) + a] (16.65) 
因此 ， 如 果 第 二 层 中 神经 元 j 是 活跃 的 (赢得 了 竞争 )， 那 么 WORE j 列 被 移 向 a 模式 。 
为 了 说 明 这 一 点 ， 我 们 来 考查 方程 (16.65) 的 稳定 状态 运算 。 
分 析 中 我 们 假设 采用 快速 学 习 方 案 ， 即 第 一 层 和 第 二 层 的 输出 在 权 值 达到 稳定 状态 之 前 
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保持 恒定 不 变 。 假 设 第 二 层 神经 元 j 是 活跃 的 ， 故 a? = 1。 置 等 式 (16.65) 中 导数 为 0， 则 有 
0--w/?.a m w'-a (16.66) 
因此 Wes i 列 收 敛 于 第 一 层 的 输出 a 。 回 忆 等 式 (16.20) 和 等 式 (16.21)， 我 们 知 
道 a 是 输入 模式 与 相应 的 原型 模式 的 结合 。 因 此 ， 原 型 模式 被 修改 为 结合 当前 的 输入 模式 
(如 果 存 在 足够 密切 的 匹配 ) 。 
始终 牢记 Wea WP2:! 是 同时 更 新 的 。 当 第 二 层 的 神经 元 j 是 活跃 的， 并 且 在 期 望 值 与 
输入 模式 之 间 存 在 着 充分 的 匹配 (这 表明 形成 了 谐振 条 件 ) 时 ，W' ”的 第 j 行 与 W* BST j 
即 被 调整 。 在 快速 学 习 中 ，W2"! 的 第 ; 列 设 设 成 a， 而 Wi ?的 第 j 行 被 设 成 a 的 规格 化 版 
本 。 
16.2.7 ARTI 算法 小 结 


至 此 我 们 分 析 了 ARTI 体系 结构 的 每 个 子 系统 。 如 果 总 结 一 下 关键 的 稳定 状态 运算 并 把 
它们 组 织 成 一 个 算法 ， 我 们 就 可 以 一 览 ARTI 的 所 有 运算 。 

1. 初始 化 

ARTI 算法 从 权 值 矩 阵 WU? WE IERRA. ERW 初始 化 为 全 1。 这 样 ， 第 二 
层 中 的 一 个 新 神经 元 首次 赢得 了 竞争 ， 谐 振 就 会 发 生 。 事 实 上 ，al = pw? = p， 因 此 得 到 
la [7| p|^ 21» p 。 这 意味 着 W2"! 中 的 任 一 未 经 训练 的 列 都 是 一 个 有 效 的 空白 记录 从 而 可 
以 和 任何 输入 模式 发 生 匹配 。 

MAER W12 的 每 一 行 都 应 该 是 W2:1 中 各 列 的 规格 化 版 本 ， 那 么 矩阵 W' “的 每 个 元 素 
都 被 初始 化 为 C(t+ 81-1) © 

2. 算法 

初始 化 后 ，ART1 算法 执行 如 下 : 

1) 首先 ， 我 们 向 网 络 提交 一 个 输入 模式 。 因 为 第 二 层 被 初始 化 为 不 活跃 的 ( 即 每 个 a} = 

0)， 故 第 一 层 的 输出 为 (等 式 (16.20)) 
al =p (16.67) 


2) 其 次 ， 我们 计算 第 二 层 的 输入 
Ww! a! (16.68) 
并 且 用 最 大 的 输入 (等 式 (16.37)) 激 活 第 二 层 神 经 元 ; 
ne 全 如 果 (( pw?) a! = max[ (,w''?) Ta ]) 
00, 其 他 
在 平局 的 情况 下 ， 具 有 最 小 下 标的 神经 元 被 宣布 为 获胜 神经 元 。 
3) 然后 我 们 计算 L2 - L1 期 望 值 (假定 第 二 层 中 神经 元 j 被 激活 ): 
Wg = wi! (16.70) 
4) 现在 第 二 层 已 被 激活 ， 我 们 调整 第 一 层 的 输出 使 它 包含 L2 - L1 期 望 值 (等 式 
(16.21)): 


(16.69) 


al = p()w? (16.71) 
5) 然后 ， 由 调整 子 系统 判定 期 望 值 与 输入 模式 (等 式 (16.49)) 的 匹配 程度 
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wo {i mate < "n 
o, 其 他 
6) Ha -1, MS 3-0, 抑制 它 直到 发 生 足 够 的 匹配 (谐振 )， 返 回 第 125. Fa = 0， 
继续 第 7 步 。 
7) 谐振 发 生 。 更 新 Wea j 行 (等 式 (16.61)): 
1 
jw? — m (16.73) 


ESSE 
8) 更 新 WR j 列 (等 式 (16.61) )， 
Wi =al (16.74) 
9) 撤消 输入 模式 ， 恢 复 第 二 层 中 所 有 抑制 的 神经 元 ， 然 后 返回 第 1 步 接收 新 的 输入 模 
输入 模式 继续 被 应 用 到 网 络 中 直到 所 有 权 值 稳定 (不 再 改变 )。Carpenter 和 Grossberg 已 
证 明 [CaGr87a]ART1 算法 对 任何 一 组 的 输入 模式 都 能 形成 稳定 的 聚 类 。 
ARTI 运算 法 则 的 详细 例子 参见 例题 P16.5，P16.6 和 P16.7。 


试验 ARTI 算法 请 用 Neural Network Design Demonstration ART1 (nndl16al ) 。 








16.2.8 其 他 ART 体系 结构 


ARTI 网 络 仅仅 只 是 自 适 应 谐振 理论 的 一 个 例子 。Carpenter 和 Grossberg 以 及 他 们 研究 
小 组 的 其 他 人 提出 了 这 一 主题 的 许多 变型 。 

ART1 网 络 的 一 个 不 足 是 它 只 适用 于 二 值 输入 模式 。Carpenter 和 Grossberg 提出 了 
ART1 的 一 种 变型 ， 叫 做 ART2， 可 用 来 处 理 二 值 或 模拟 的 输入 模式 [CaGr87b]。 除 第 一 层 
外 ART2 的 基本 结构 与 ARTI 非常 相似 。ART2 中 第 一 层 被 几 个 子 层 的 代替 。 这 些 子 层 是 必 
需 的 ， 因 为 模拟 向 量 ， 不 像 二 值 向 量 ， 可 以 彼此 任意 地 靠近 。 子 层 规格 化 过 程 与 清除 噪声 的 
工作 相 结 合 ， 同 时 还 执行 调整 子 系统 所 需要 的 输入 向 量 与 期 望 值 的 比较 工作 。 

Carpenter 和 Grossberg 后 来 提出 了 ART3 网 络 [ CaGr90]， 其 中 介绍 了 一 种 比 ART 所 要 
求 的 重 置 机 构 的 更 为 复杂 的 生物 学 模型 。 直 到 现在 ， 这 种 网 络 尚 未 被 广泛 地 应 用 。1991 年 ， 
Carpenter, Grossberg 和 Reynolds 介绍 了 ARTMAP 网 络 [CaGrRe91]。 与 以 前 的 所 有 ART 网 
络 相 比 ， 它 是 一 个 有 监督 的 网 络 。ARTMAP 体系 结构 由 两 个 ART 模块 构成 ， 两 模块 由 一 个 
称 为 “中 间 ART” 的 联想 存储 器 相连 接 。 一 个 ART 模块 用 来 接受 输入 向 量 ， 而 另 一 个 模块 用 
来 接受 预定 的 输出 向 量 。 这 种 网 络 学 习 的 是 ， 每 当 有 输入 向 量 的 时 候 它 能 预测 正确 的 输出 。 

近来 ，Carpenter，Grossberg ，Markuzon，Reynolds 和 Rosen 又 修改 了 ARTMAP 的 体系 
结构 ， 结 合 进 了 模糊 逻辑 。 其 结果 称 为 “模糊 ARTMAP”[CaGrMa92]。 它 看 上 去 性 能 有 所 提 

[1623] 高 ， 尤 其 是 对 含 噪音 的 输 人 模式。 

所 有 这 些 ART 体系 结构 都 结合 了 本 章 讨 论 的 主要 模块 ， 包 括 : 

* L1 - L2 instar 模式 识别 

* I2- LI outstar 模式 回忆 
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。 用 于 对 比 增强 (竞争 ) 的 第 二 层 
* 用 于 输入 与 期 望 值 比较 的 第 一 层 


。 当 模式 不 匹配 时 用 于 重 置 的 调整 子 系统 
16.3 小 结 
基本 的 ART 体系 结构 





ART1 网 络 (二 值 模式 ) 
ARTI 第 一 层 





增益 控制 ER 


€ dnydt= - n! + (+b! - n {p + W21a2) -n+-b)[-WI]a2 


362 ABE I 4S 2h tf 





第 一 层 方程 
dE nb a) ipt Wa) - (aCe) «7 DE WIC) 
稳定 状态 运算 

若 第 二 层 不 活 唉 ( 即 每 个 a7 =0), a! = po 

车 第 二 层 活 唉 ( 即 有 一 个 a3 =1), a! = pnw». 

ARTI 第 二 层 





£ dn?/dt = - m + (tb? - n2){[+W2]f2(0n2) + W!2a1) 
- (m? + bp W?]fzn?) 


第 二 层 方程 
ed --mG)«(CP-m)Dit* W2]E(n2(i)) + W!?al| 
- (iG) «9 war) 


稳定 状态 运算 

[1626] 22 [^ jdn ((;w''?) Tal = max[ (;w2)7a! ]) 
' lo, 其 他 
调整 子 系统 
调整 子 系统 方程 
iei =~ n%(t) + (tbo — n9(2)10* Wp} - (90) + 7 09)17 Wal] 
其 中 +Wo=[o a ce al, W'-[B B = Bl, t» ij ed. 
ss [p BRIT en 


o, 其 他 
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€ dm/dt = -n° + (tb ~ n?) [W?]p - (n? + "boy ("W?]a1 


L1 - L2 学 习 规 则 


à 
dw * 02] = a2(t)| {* b -w (pelt Wlall) - {iw (t) + 7 b) [7 Wlal(t) 


dt 
0 i 0 0 1 
eile] hw 
ij Qo] lo o d] lido 
稳定 状态 运算 (快速 学 习 ) 
iw? 名 (第 二 层 神经 元 ; 活用 


gajaj? -1 
L2 -L1 学 习 规 则 


:1 
dw o] = a w (t) +a (i)] 
dt 
稳定 状态 运算 (快速 学 习 ) 
we) = al( 第 二 层 神经 元 j 活跃) 
ARTI 算法 (快速 学 习 ) 小 结 
初始 化 
矩阵 W2 初始 化 为 全 1。 
ABE W 的 每 个 元 素 初 始 化 为 WE5+ S! -1)。 
算法 


1) 首先 ， 向 网 络 提交 一 个 输入 模式 。 既 然 第 二 层 初 始 化 为 不 活跃 ( 即 每 个 a = 0) ， 则 第 
一 层 输出 为 


2) 其 次 ， 计 算 第 二 层 的 输入 | 
Ww!?gl 
并 且 用 输入 中 的 最 大 值 激活 第 二 层 的 神经 元 ; 


a =p 
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" D AUR ((,w'?) a! = max[ (w?) "a! ]) 
”Lo， 其 他 

在 平局 的 情形 下 ， 具 有 最 小 下 标的 神经 元 被 宣布 为 优胜 者 。 
3) 计算 L2 - L1 期 望 值 (其 中 假设 第 二 层 神 经 元 j WR) 


16-28] w?! 2 = 有 
4) 现在 第 二 层 是 活跃 的 ， 调 整 第 一 层 的 输出 以 包含 L2 - L1 期望值; 
al =p n wl 


5) 然后 ， 调 整 子 系统 判定 期 望 值 与 输入 模式 的 匹配 程度 : 
a = 人 如 果 [|al| “jp| < ol 
o, 其 他 
6) Æ a?-1, MS a? =0， 抑 制 它 直到 适当 的 匹配 发 生 (谐振 )， 返 回 第 1 步 。 若 o0=0， 
继续 第 7 步 。 
7) 谐振 发 生 ， 因 此 更 新 W' “的 第 j 行 : 
1:2 icy 


5o te[al-i 


8) 现在 更 新 WHS j 列 ; VEN 
j =a 
9) 撤消 输入 模式 ， 恢 复 第 二 层 中 所 有 被 抑制 的 神经 元 ， 然 后 返回 第 1 步 ， 接 受 新 的 输 
[16-29] 人 模式 。 


16.4 例题 


P16.1 考虑 ARTI 网 络 的 第 一 层 具 有 如 下 参数 : 
e = 0.01,* b = 2,7 b! =3 
假设 第 二 层 有 两 个 神经 元 , 输入 向 量 中 有 两 个 元 素 ， 并 有 如 下 的 权 值 矩阵 和 输入 ; 
wl | ol 
再 假设 第 二 层 神经 元 1 AR. 
(i) 找 出 且 描 绘 响应 nl。 
(ii) 检查 (i) 的 答案 是 否 满足 稳定 状态 运算 方程 (16.21) 的 预测 。 
解 
(i) 因为 第 二 层 活跃 ， 且 第 二 层 神经 元 1 赢得 了 竞争 ， 所 以 第 一 层 的 运算 方程 为 
1 
(0.01) ne ni +(2-ni)ip, + with - (n1 +3) 
=-ni+(2-n})i14+0} - (n1 2 3) 2-3nl -1 
1 
(0.01) in - - nå + (2- nip, + wit} - (ni +3) 


=- n} +(2- nlt «11 - (n1 4 3) 2- 47341 


化 简 为 
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d 1 
En = — 300n! — 100 
d 1 
^ = - 400nl + 100 


车 假设 两 个 神经 元 的 初始 条 件 都 为 0， 则 结果 为 
a(t) =- 3l - e] 
nl(t) = in ~ e] 


它们 的 图 形 见 图 16-9. 














图 16-9 第 一 层 的 响应 


(i) WES, n (OKAT, m ni WORF IEA. AIE a} Ce WFO, ail) 
AF 1( 回 忆 第 一 层 的 转移 函数 为 hardlim + )。 这 与 我 们 的 稳 态 分 析 一 致 ( 见 等 式 (16.21))， 


这 是 因为 
nol) -p-e 
P16.2 SR ARTI 网 络 的 第 二 层 具 有 如 下 参数 ; 


ouv [2] - [2] aum = [05 95] 
e = 0.1,*b -| , b? = 2 W T (2wl1:2)7 1 0 


10(n?7), n>0 
fn = lo. 


n<0 


| 


除了 偏 置 值 不 同 以 外 ， 它 和 正文 中 第 二 层 的 例子 是 一 样 的 。 


假设 第 一 层 的 输出 为 


(i) 写 出 第 二 层 的 运算 方程 ， 并 且 模 仿 描绘 出 其 响应 图 。 解 释 偏 置 值 增 加 带 来 的 影响 。 


(ii) 证 实 第 二 层 稳定 状态 方程 的 正确 性 。 


365 


(16.75) 
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366 PB HB LE TH 


CD BERENE 
(0.1) 9C) 1. 46 4 2 DE PG + Gwe?) ra 
- (QC + D PCH) 
(0. SPD 1. 360 + (2 BNI PB + Cow?) Fal 


- (n3(t) + 228 (ni(t)) 
图 16-10 展示 了 当 输 入 向 量 为 a = [1 0]" 时 第 二 层 的 响应 。W' 的 第 二 行 与 a 作用 有 比 第 
一 行 更 大 的 内 积 ， 因 此 第 二 个 神经 元 赢得 了 竞争 。 
































图 16-10 第 二 层 的 响应 


如 果 我 们 将 图 16-10 与 图 16-6 作 个 比较 ， 可 以 看 到 偏 置 值 有 三 个 影响 。 第 一 ， 响 应 速 
度 增加 了 ; 神经 元 的 输出 更 快 地 转向 它们 的 稳定 状态 值 。 第 二 ， 响 应 的 范围 从 [ - 1，1] 增 
加 到 [ - 2，2]。( 回 忆 第 15 章 并 联 模 型 中 上 限 是 激励 偏 置 值 * 2， 而 下 限 是 抑制 偏 置 值 - 5。) 


第 三 ， 神 经 元 的 响应 更 加 接近 上 限 或 下 限 。 
(站 ) 在 稳定 状态 ，n?(1) 有 一 个 正 值 ，n2(1) 有 一 个 负 值 。 第 二 层 的 稳定 状态 输出 会 是 : 


2 


这 与 第 二 层 要 求 的 稳 态 响应 特征 一 致 
[^ 3X6((;w?)78! = max[(;w'?) 7a‘ ]) 时 
~ lo, 其 他 
P16.3 考虑 ARTI 网 络 具有 如 下 参数 的 调整 子 系统 ; 
e=0.1, a20.5, B2 2(p-2 0.25), * 2-89 20.5 


调整 整 子 系统 的 输 人 为 
1 1 
1 1 


(i) 找 出 并 描绘 调整 子 系统 的 响应 n" (1). 


p- 
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(di) 证 实 其 满足 稳定 状态 条 件 。 
解 
(i) 调整 子 系统 的 运算 方程 为 


(0.1) SEC. 1 n?e) + (0.5- 9 (0)10.5(p, + p, + p3)! 


~ (n9(1) « 0.5)12(al + al + al)] 
或 者 
erit = - 65n?(1) - 12.5 
故 其 响应 为 


no(t) = -~ 0.1923[1 - e$] 
该 响应 如 图 16-11 所 示 。 此 例 中 ， 因 为 PENE, a? = hardlim* (n?) =0， 所 以 不 
会 有 重 置 信号 发 向 第 二 层 。 











图 16-11 调整 子 系统 的 响应 
(ii) 调整 子 系统 的 稳定 状态 运算 可 以 总 结 如 下 : 
pa {i ea 


0, 其 他 
在 本 题 中 


2 2 


0 
1 


|a] 7vlp| = / 
































1 
1 
1 
故 a =0， 与 (i) 的 结果 一 致 。 
P16.4 说 明 L2- L1 连接 的 学 习 方 程 与 第 13 章 所 述 outstar 方程 等 价 。 
L2 - L1 学 习 规则 为 (等 式 (16.65)) 
2:1 ' 
dw to] = a2(t)[- wj G) +a'(t)] 
dt 


着 用 


16-35] 
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dw/()] w(t + At) - w(t) 
dt = At 
作为 导数 部 分 的 近似 值 ， 则 等 式 (16.65) 可 重 写 为 
Wt + At) = Wit) + (At) l)i- w(t) + alcol 
这 就 是 第 13 HAY outstar 规则 (等 式 (13.51))。 这 里 ，L2 - Li 连接 的 输入 是 a(t), L2- L1 
连接 的 输出 是 al 
P16.5 用 下 面 的 输入 向 量 训练 ARTI 网 络 ， 


0 1 1 
P; = 1 , P; = , Ps = 1 
0 0 0 


利用 参数 5= 2, Q 20.4, 选择 S? = 3(3 个 分 类 )。 
解 
我 们 的 初始 权 值 将 是 
111 0.5 0.5 0.5 
Ww^-z|1: 1 1), W2=]0.5 0.5 0.5 


1 1 1 0.5 0.5 0.5 


l 0 
a =p, = 1 
0 


0.5 0.5 0.5 ][ 0 

0.5 0.5 0.5 I 0.5 
0.5 0.5 0.5.10 0.5 
由 于 所 有 神经 元 都 有 相同 的 输入 ， 选 取 第 一 个 神经 元 作为 优胜 者 。( 在 平局 的 情况 
下 ， 选 取 下 标 最 小 的 神经 元 作为 优胜 者 。) 
1 





现在 来 讨论 算法 。 
1) 计算 第 一 层 的 响应 : 


2) 然后 计算 第 二 层 的 输入 : 
0.5 
W''2q) = 

















a = 








3) 现在 计算 L2 - L1 HBA: 


0 
0 

111491 1 
W?!lg-z|1 1 1//0] =] 1 
1 1 1JLO 1 


4) 调整 第 一 层 输 出 以 包含 L2 - 11 期望值 ; 


TERG 








a = p, nw! = 
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5) 然后 ， 调 整 子 系统 判定 期 望 值 与 输入 模式 的 匹配 程度 : 
|a |/|p |? = + > p = 0.4, 因 此 a? = CREB) 


6) 既然 a9 20, 继续 第 7 步 。 
7) 谐振 发 生 ， 因 而 更 新 W'“ 的 第 1 行 : 


, 0 o 1 o0 

wW? = ITA jer Da 中 wW? = 区 0.5 ss] 
0 0.5 0.5 0.5 

8) 更 新 WHOS 15]: 
1 
0 
3) 撤消 p ， 返 回 第 1 步 ， 接 收 输入 模式 po 
1) 计算 新 的 第 一 层 响 应 (第 二 层 不 活跃 ): 


wr! = al - 








2) 然后 ， 计 算 第 二 层 的 输入 


w!?gl - 





0 1 0 1 0 
0.5 0.5 0.5 );0] =| 0.5 
0.5 0.5 O0O.51L0 0.5 


由 于 神经 元 2 与 神经 元 3 有 相同 输入 ， 取 神经 元 2 作为 优胜 者 : 

















0 1 1 

wla = f 1 1 

0 1 1 

4) 调整 第 一 层 输出 以 包含 L2 - L1 期 望 值 : 

1 1 

0 1 | = I 

0 1 0 
5) 然后 ， 调 整 子 系统 判定 期 望 值 与 输入 模式 的 匹配 程度 : 

la'l7]p]^ = + > p = 0.4, 因 此 a? = 0( 不 重 置 )。 


6) BER a9 = 0， 继 续 第 7 步 。 
7) 谐振 发 生 ， 因 而 更 新 W 的 第 二 行 : 


1 


al = p NW = a 
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1 ! ° 0 
+ yay 一 0 0.5 0.5 0.5 


8) 更 新 WBF: 


wl! = al = 








0 


9) 撤消 p,， 返 回 第 1 步 ， 接 收 输入 模式 po 
1) 计算 第 一 层 对 新 输入 模式 的 响应 : 


2) 然后 ， 计 算 第 二 层 的 输入 ; 


1 0 0 1 
0.5 0.5 0.51L0 


由 于 所 有 神经 元 都 有 相同 输入 ， 选 取 神 经 元 1 作为 优胜 者 : 


W1:281 = 

















3) 现在 计算 L2 - L1 期 望 值 : 








0 1 1][1 0 
wl 0 I = Wl = | 
0 0 1JL0 0 
4) 调整 第 一 层 输出 以 包含 L2 - L1 期 望 值 ; 
1 0 0 
al =p, wi = Aji} =f 
0 0 0 




















5) 然后 ， 调 整 子 系统 判定 期 望 值 与 输入 模式 之 间 的 匹配 程度 : 
|u |n]? = 4 > p = 0.4, 因 此 oo = 0( 不 重 置 ) 


6) 既然 a? = 0， 继 续 第 7 步 。 
7) 谐振 发 生 ， 因 而 更 新 W 的 第 1 行 : 


0 0 1 0 
"T rao "m D azii| Ww?z|1 0 0 
+ ay - 0 0.5 0.5 0.5 


8) 更 新 W2 的 第 一 列 : 
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0 
1 
0 

这 时 训练 就 结束 了 。 即 使 你 再 训练 这 三 个 模式 中 的 任 一 个 ， 权 值 都 不 会 改变 。 这 些 模式 
已 被 成 功 的 聚 类 。 这 种 结果 形式 (稳定 的 学 习 过 程 ) 对 于 ARTL 算法 是 必然 的 ， 事实 上 , € 
被 证 明 总 能 形成 稳定 的 聚 类 。 

P16.6 重复 例题 P16.5 ， 但 是 改变 警戒 参数 为 pb= 0.6。 

解 

训练 过 程 与 例题 P16 .5 完全 一 样 ， 直 到 出 现 模式 p,。 让 我 们 从 这 里 继续 算法 。 

1) 计算 第 一 层 的 响应 : 


w?! = al = w?! 一 














0 1 ! 
1 0 1 
0 0 1 





















































a z P3 二 
0 
2) 然后 ， 计 算 第 二 层 的 输入 ; 
0 1 0 1 1 
W?a =| 1 0 a =| 1 
0.5 0.5 0.5100 1 
既然 所 有 的 神经 元 都 有 相同 的 输入 ， 选 取 神 经 元 1 作为 优胜 者 : 
1 
a =|0 
0 
3) 现在 计算 L2- L1 HA: 
0 1 14/1 0 
we 0 1||0|= w= | 
0 0 1J4L0 0 
4) 调整 第 一 层 的 输出 以 包括 L2 - L1 892818: 
1 0 0 
al =p, f wr! = 门 1 2|1 
0 0 0 
5) 然后 ， 调 整 子 系统 判定 期 望 值 与 输入 模式 的 匹配 程度 : 
[alp]? = 4 < p = 0.6, 因 而 a。o = 1( 重 置 ) 
6) 因为 a? = 1, 令 a? =0， 抑 制 它 直到 出 现 足够 的 匹配 (谐振 )， 然 后 返回 第 1 步 。 
1) 重新 计算 第 一 层 的 响应 (第 二 展 不 活跃 ) 
a = P; = 1 
9 


2) 其 次 ， 计 算 第 二 层 的 输入 : 


0 1 0 1 1 
Wi?alz 1 0 0 1|=|1 
0.5 0.5 0.5JL0 1 
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既然 神经 元 1 被 抑制 ， 选 取 神 经 元 2 作为 优胜 者 ; 

















0 
a =| 1 
0 
3) 现在 ,计算 L2 - L1 期 望 值 ; 
0 1 11[0 1 
wel 0 1 ^ = w! = | 
| 0 0 1.10 0 
4) 调整 第 一 层 输 出 以 包含 L2 - L1 期 望 值 : 
1 1 1 
al=p 站 =|l N 0 = | 0 
0 0 0 




















5) 然后 ， 调 整 子 系统 判定 期 望 值 与 输入 模式 之 间 的 匹配 程度 ， 
|a llo]? = + «o2 0.6, 因而 a = 1( 重 置 ) 


6) AW o=1, $ oi =0， 抑 制 它 直到 出 现 足 够 的 匹配 (谐振 ) ， 然 后 返回 第 1 步 。 
1) 重新 计算 第 一 层 的 响应 








2) 其 次 ， 计 算 第 二 层 的 输入 


0 1 0 
wi 1 = 1 0 0 


1 
=| 1 
0.5 0.5 0.5 1 


由 于 神经 元 1 和 神经 元 2 RI, BERAT 3 为 优胜 者 : 
0 


1 











a!-|0 
1 


3) 现在 计算 L2 - L1 HAW.: 








0 1 io] 日 
We =11 0 1//0] = wi! =] 1 
00 ılı 1 
4) 调整 第 一 层 输出 以 包含 L2 - L1 期望 值 ; 
1 1 1 
al = p N wi! = LIN |. 
0 1 0 














5) 然后 ， 调 整 子 系统 判定 期 望 值 与 输入 模式 的 匹配 程度 ， 
| 本 = > o = 0.6, 因 而 a? = 0( 不 重 置 ) 
6) 由 于 oo =0, 继续 第 7 步 。 
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7) 谐振 发 生 ， 因 而 更 新 W! 的 第 313: - 


2 
| 3 0 1 0 
WU 一 一 2a _ -<al-|2 whe 1 0 0 
2+|al -1 3 3 2 2 1 
0 3 3 . 
8) 更 新 WRS 3 列 : 

1 0 1 1 

wi! 一 al 一 1 Ww! = 1 0 1 

0 0.0 0 














这 时 训练 就 结束 了 ， 即 使 再 对 这 三 个 输入 模式 中 的 任 一 个 进行 训练 ， 权 值 也 不 会 发 生 改 [1622] 
AE. (对 网 络 应 用 每 一 个 输入 模式 自己 证 明 这 点 。) 这 些 模式 已 被 成 功 地 聚 类 。 
注意 在 例题 P16.5 中 ， 警 戒 值 。= 0.4， 所 以 这 些 模式 被 聚 类 成 两 类 。 在 本 题 中 ， 警 戒 
fH e = 0.6， 这 些 模式 被 聚 类 成 三 类 。 警 戒 值 越 接近 1， 就 会 聚 类 成 越 多 的 分 类 。 这 是 因为 输 
人 模式 必须 很 接近 原型 ， 以 使 其 被 相应 的 原型 结合 。 当 警戒 值 接近 0 时 ， 许 多 不 同 的 输入 模 
式 会 被 结合 进 同 一 个 原型 。 警 戒 参 数 调节 分 类 的 近似 程度 。 
P16.7 用 下 面 的 输入 向 量 训练 ARTI 网 络 (参见 [CaGr87a]): 


Pi P: bs P. 
图 16-12 

提交 向 量 的 顺序 为 p -p-p -p -pl REX, p 在 每 一 个 轮回 中 被 提交 了 两 次 )。 使 用 
参数 5=2，p=0.6,， 选择 S? = 3(3 个 分 类 )。 训 练 网 络 直到 权 值 收敛 。 

解 [n 
34 TA WRAL UEFA. DEE W2 1: 是 一 个 S1 x S? = 25 x 3 的 全 1B. WM 
ER WL2? 经 过 了 规格 化 ， 因 此 它 是 一 个 S x Sl = 3 x 25 矩阵 ， 其 中 每 个 元 素 等 于 

i4 
Gs -D $.5^0335-0 4 —]p = 0-0769 

为 了 创建 输入 向 量 ， 我 们 要 一 行 一 行 地 扫描 每 个 模式 ， 其 中 每 个 蓝 色 方 其 都 代表 1, 8 
个 白色 方块 都 代表 0。 因 为 输入 模式 是 5x5 网 格 ， 这 将 创建 25 维 的 输入 向 量 。 

我 们 现在 开始 训练 。 由 于 在 向 量 数目 如 此 大 的 情况 下 显示 计算 的 全 过 程 并 不 实际 ， 故 我 
们 已 在 图 16-13 中 总 结 了 算法 的 结果 。 图 中 每 一 行 代表 ATRI 算法 的 一 次 重复 (一 个 输入 向 
量 的 提交 )。 每 行 中 最 左边 的 模式 是 输入 向 量 。 剩 下 的 模式 代表 W ERREI, ERK 
重复 中 ， 一 个 星 号 指出 了 谐振 点 一 一 W2:1 中 与 输 人 模式 相 匹配 的 那 一 列 。 每 当 发 生 重 置 ， 均 
被 一 个 检查 标志 ( 色 号 ) 反 映 出 来 。 当 在 一 次 重复 中 不 只 一 次 重 置 发 生 ， 检 查 标志 旁边 的 数字 
便 记 录 了 重 置 发 生 的 次 数 。 

共有 10 次 算法 的 重复 执行 (依照 次 序 p, - p, - p, - p, - p, 进行 了 两 个 轮回 )。 权 值 最 终 
稳定 。( 读 者 可 以 自己 提交 每 个 输入 模式 进行 检查 。) 

本 例 中 有 几 点 有 趣 的 地 方 得 注意 。 首 先 ， 注 意 在 第 4 次 重复 时 p, 和 p, 都 被 wi 编码 。 
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w?! wj, wj2l W121 wj Wa2:1 











(a) 第 1 轮 - (b 第 2 轮 


图 16-13 本 例 的 ARTI 重复 


然而 ， 在 第 5 次 重复 时 ， 当 p, SEXE, wi 改变 为 包含 了 pj。 这 个 新 的 Ww! 不 再 提供 与 
p, 和 p, 的 精确 匹配 ， 正 如 我 们 在 重复 6 s 中 看 到 的 。 这 就 要 求 它们 接受 神经 元 3， 而 它 


在 第 一 次 轮回 中 并 未 用 到 。 

通过 修改 警戒 参数 可 以 改变 算法 的 结果 。 要 多 小 的 警戒 值 才 能 使 仅 有 两 个 神经 元 的 第 二 
E, BEHEEDROM 4 个 输入 向 量 进 行 编码 呢 9 要 多 大 的 警戒 值 就 会 使 第 二 层 不 得 不 增加 第 4 个 
神经 元 呢 ? 


16.5 ”结束语 


竞争 性 学 习 ， 以 及 其 他 许多 类 型 的 神经 网 络 训练 算法 ， 都 遇 到 了 一 个 被 称 为 "稳定 性 /可 
塑性 二 难 问题 "的 难题 。 如 果 一 个 学 习 算法 对 新 输入 很 敏感 (可 塑性 强 )， 那 么 它 也 处 于 起 记 
以 前 学 习 内 容 的 危险 中 (不 稳定 )。ART 网 络 被 设计 成 既 保 持 对 新 输入 的 敏感 性 ， 又 保证 学 
习 的 稳定 性 。 

在 这 一 章 里 ，ART1 网 络 被 用 来 说 明 自 适应 应 谐振 理论 的 主要 概念。 ARTI 网 络 是 建立 在 
第 15 章 Grossberg 竞争 网 络 基 础 上 的 ， RAD eee, ARTI 网 络 的 主要 改进 是 “期 望 值 ” 的 
使 用 。 当 每 一 个 输入 模式 提交 给 网 络 时 ， 它 会 与 匹配 程度 最 接近 的 原型 向 量 (期 望 值 ) 进 行 比 
较 。 如 果 原 型 与 输入 向 量 不 足以 匹配 ， 一 个 新 的 原型 就 会 被 选中 。 用 这 种 方式 ， 前 面 学 习 的 
记忆 (原型 ) 就 不 会 被 新 的 学 习 所 破坏 。 

分 析 ART 网 络 时 一 个 应 铭记 在 心 的 重要 点 ， 是 它们 被 设计 成 似乎 是 合理 的 生物 学 上 的 
学 习 机 构 。 它 们 在 理解 人 脑 怎样 工作 方面 ， ea 基于 
这 种 原因 ， 这 些 学 习 机 制 要 求 在 每 个 神经 只 使 用 本 地 信息 。 而 我 们 在 文中 讨论 的 学 习 规 
则 ， 并 非 全 部 都 是 这 样 。 

虽然 ART 网 络 解决 了 学 习 不 稳定 的 困难 ， 在 它 里 面 网 络 权 值 从 来 是 不 稳定 的 ， 这 是 我 
们 尚未 讨论 过 的 另外 一 种 稳定 性 问题 。 那 就 是 实现 网 络 短期 记忆 方程 的 微分 方程 的 稳定 性 。 
例如 ， 在 第 二 层 中 ， 我 们 有 一 个 具有 非 线 性 反馈 的 微分 方程 组 。 我 们 能 否 做 出 关于 这 种 系统 
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的 稳定 性 的 一 般 说 明 呢 ? 第 17 章 将 对 这 个 问题 进行 广泛 的 讨论 。 
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习题 
E16.1 考虑 ARTI 网 络 的 第 一 层 ，s= 0.02。 设 第 二 层 中 有 两 个 神经 元 ， 输 入 向 量 中 有 
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两 个 元 素 ， 并 且 有 如 下 的 权 值 矩阵 和 输入: 


wl L 


再 假设 第 二 层 神 经 元 2 是 活跃 的 。 

(i) 求 出 并 描绘 n! 的 响应 ， 如 果 + 5-2 H7 5!23, 

(站 ) 求 出 并 描绘 响应 n, Wet b -4H-5'-5, 

( 道 ) 求 出 并 描绘 响应 2， 如 果 +b!=4 且 -bl=4。 

Civ) 检查 (i) ~ (十 ) 小 题 的 答案 是 否 满足 等 式 (16.21) 预 测 的 稳 态 响应 。 解 释 所 
有 不 一 致 的 地 方 。- 

(v) 通过 写 出 模仿 ART! 网 络 第 一 层 的 MATLAB M- 文 件 检验 (i) ~ (说 ) 小 题 的 
答案 。 利 用 例 行 程序 ode4$s。 画 出 每 种 情况 的 响应 图 。 

E16.2 考虑 具有 如 下 参数 的 ARTI 网 络 第 二 层 ， 


1:2) 7 2 2 
e=0.1 Wi? = mas] -|3 3 
设 第 一 层 的 输出 为 


(i) 写 出 第 二 层 的 运算 方程 ， 模 仿 并 画 出 使 用 下 列 偏 置 值 向 量 的 响应 图 : 


efil = fi] 


Ci) 重复 (i 小 题 ， 使 用 如 下 偏 置 值 向 量 ， 


w]e 


(iii) 重复 (让 小 题 ， 使 用 如 下 偏 置 值 向 量 : 


w]e 


(iv) 前 面 三 小 题 的 结果 满足 等 式 (16.37) 描 述 的 稳 态 响应 吗 ? 如 果 不 满足 ， 为 什么 ? 
E16.3 考虑 ARTI 网 络 具有 如 下 参数 的 调整 子 系统 : 
e=0.1 *b=-b°=2 
调整 子 系统 的 输入 为 i 








(i) 求 出 并 描绘 调整 子 系统 的 响应 n? (60), HP a=0.5, B=4 (p=0.125)。 
(ii) 求 出 并 描绘 调整 子 系统 的 响应 n), HF a=0.5, 8-2 (p=0.25)。 
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Cii) 验证 小 题 ( 访 和 (ii 满足 稳定 状态 条 件 。 
(iv) 通过 写 出 模仿 调整 子 系统 的 MATLAB M- 文 件 检验 第 (i) ，(ii) 小 题 的 答案 。 
E16.4 为 了 得 到 LI- L2 和 1L2 - L1 学 习 规 则 的 稳定 状态 条 件 ， 我 们 假设 输入 模式 和 神 
”经 元 的 输出 在 权 值 抢 阵 收敛 前 保持 恒定 不 变 。 这 叫做 “快速 学 习 "”。 说 明 这 个 快 
速 学 习 假设 与 出 现在 第 13 章 的 instar 和 outstar 学 习 规 则 中 和 第 14 BAY Kohonen 
竞争 性 学 习 规 则 中 把 学 习 速 度 设置 为 a= 1 是 等 价 的 。 
E16.5 用 下 面 的 输入 向 量 训练 ARTI 网 络 : 


0 1 1 1 

1 0 1 1 
Brig Pilol B3jofp P7), 

1 1 0 l. 


使 用 参数 5=2， 并 选择 S? 23(3 个 分 类 )。 
Ci) 利用 o=0.3 训练 网 络 函 收敛 。 
(ii) 利用 o=0.6 BS (i) NE. 
(iii) FIFA p= 0.9 BS Cii) /] Bl. 

E16.6 当 原 型 与 输入 模式 之 间 不 存在 精确 匹配 时 ， 可 以 修改 ARTI 算法 使 第 二 层 增加 
一 个 新 的 神经 元 。 这 将 导致 在 矩阵 W!”* 中 新 增 一 行 和 在 W'! 中 新 增 一 列 。 描 述 
此 过 程 怎 样 实现 。 

E16,7 写 出 实现 ART! 算法 的 MATLAB M- 文 件 (运用 习题 E16.6 中 所 描述 的 修改 过 程 )。 
用 这 个 M- 文 件 训 练 ARTI 网 络 ， 并 使 用 下 面 的 输入 向 量 (参见 例题 P16.7) : 





Pi 
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以 下 面 的 次 序 提交 输入 向 量 : p, -p-p ~ p, - p, (Mu, P, 在 一 个 轮回 中 被 

提交 两 次 )。 使 用 参数 5= 2，p = 0.9， 并 选择 S = 3(3 个 分 类 ) 。 训 练 网 络 直到 权 

值 收敛 。 将 你 的 结果 与 P16.7 比较 。 
E16.8 回忆 第 7 章 描述 的 数字 识别 问题 。 使 用 数字 0 ~9 训练 ARTI 网 络 ， 它 们 显示 如 下 : 


OTe S45 bes 


P, P, Ps P, Ps Pe Pr Ps Po Pu 


图 16-15 


使 用 参数 5=2 ， 选 择 S = 5(5 个 分 类 )。 利 用 习题 E16.7 中 的 MATLAB M- 文 件 。 

Ci) 训练 网 络 至 收敛 ， 使 用 o= 0.3。 

(ii) 训练 网 络 至 收敛 ,使 用 p=0.6。 

(iti) VARS BN, EH p= 0.9。 

Civ) 讨论 小 题 (GD) ~ Gi) HAR, RRSKSRH BM, 
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第 17 章 稳定 性 


17.1 目的 


递归 网 络 中 的 “收敛 性 "问题 第 一 次 出 现在 第 3 章 讨论 的 Hopfield 网 络 中 。 注 意 到 递归 网 
络 的 输出 可 能 收敛 于 一 个 稳定 点 、 发 生 振荡 或 者 甚至 可 能 发 散 。 急 剧 下 降 过程 和 LMS 算法 
的 “稳定 性 "已 分 别 在 第 9 章 和 第 10 章 中 进行 了 讨论 。Grossberg 的 持续 时 间 递 归 网 络 (con- 
tinuous - time recurrent network) 的 稳定 性 问题 也 在 第 15 章 作 了 讨论 。 

这 一 章 将 对 稳定 性 作 更 为 细致 的 定义 。 我 们 的 目的 是 判断 一 组 特定 的 非 线 性 方程 是 否 具 
有 一 些 其 输出 收敛 的 点 (或 轨迹 ) 。 为 研究 这 个 问题 题 ， 我 们 将 介绍 Lyapunov 的 稳定 性 定理 ， 
并 且 把 它 运 用 到 一 个 简单 却 又 具有 启发 性 的 问题 中 。 然 后 ， 提 出 Lyapunov 理论 的 一 般 形式 : 
LaSalle 不 变性 定理 。 这 将 为 第 18 章 打下 基础 ， 那 里 LaSalle 定理 被 用 来 证 明 Hopfield 网 络 的 
稳定 性 。 


17.2 理论 和 实例 


17.2.1 递归 网 络 


本 书 最 初 讨论 递归 神经 网 络 ， 是 在 第 3 章 讨论 Hamming 以 及 Hopfield MAM, EMR 
有 从 输出 到 输入 的 反馈 连接 。 第 15 章 和 第 16 BH Grossberg 网 络 也 含有 递归 连接 。 由 于 递 
归 网 络 能 够 识别 和 回忆 时 序 模式 以 及 空间 模式 ， 因 而 它 比 前 馈 网 络 更 具有 潜在 的 能 力 。 然 
而 ， 这 些 递归 网 络 的 行为 比 前 馈 网 络 更 为 复杂 。 

对 前 馈 网 络 来 说 ， 其 输出 是 恒定 的 (对 一 个 固定 的 输入 )， 并 且 仅 是 网 络 输入 的 函数 。 但 
是 ， 对 递归 网 络 来 说 ， 网 络 的 输出 是 时 间 的 一 个 函数 。 对 一 个 给 定 的 输入 和 一 个 给 定 的 初始 
网 络 输出 ， 网 络 的 响应 可 能 收敛 到 一 个 稳定 的 输出 。 然 而 ， 它 也 可 能 振 落 ， 无 限 地 增 大 ， 或 
者 遵循 一 种 混乱 的 模式 。 在 这 一 章 的 剩 下 部 分 ， 我 们 旨 在 分 析 一 般 的 非 线性 递归 网 络 ， 用 以 
确定 它们 的 长 期 行为 。 

考虑 由 如 下 形式 的 非 线性 微分 方程 组 描述 的 递归 网 络 : 


Lal) = g(a(t),p(t),t) (17.1) 


这 里 p(1) 是 网 络 输入 ，a( 7) 是 网 络 输出 ( 见 图 17-1)。 

我 们 希望 知道 这 些 系 统 在 稳定 状态 下 如 何 运作 。 我 们 最 感 兴趣 的 是 网 络 收敛 到 一 个 恒定 
输出 的 那些 情况 ， 这 个 恒定 输出 即 为 稳定 平衡 点 。 一 个 非 线性 系统 可 能 有 许多 稳定 点 。 对 于 
某 些 神经 网 络 ， 这 些 稳定 点 代表 存储 的 原型 模式 。 可 能 的 话 ， 我 们 想 知道 这 些 稳 定点 在 哪 
里 ， 以 及 哪些 初始 条 件 a(0) 会 敛 到 一 个 给 定 的 稳定 点 。( 即 什么 是 一 个 给 定 稳定 点 的 吸引 


区 ?) 
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非 线性 递归 网 络 





da(D/dt = g(a(n),p(n.1) 


图 17.1 非 线 性 持续 时 间 递归 网 络 
17.2.2 稳定 性 概念 


开始 讨论 前 ， 我 们 用 一 个 简单 而 又 直观 的 例子 来 介绍 一 些 基 本 的 稳定 性 概念 。 考 虑 重力 
场 中 一 个 球形 轴承 的 运动 ( 带 有 摩擦 消耗 )。 在 图 17-2(a) 中 ， 桶 的 底部 (点 a" ) 放 有 一 个 球形 
轴承 。 如 果 我 们 将 轴承 移 到 一 个 不 同 的 位 置 ， 它 将 会 在 槽 里 前 后 振荡 起 来 。 但 是 ， 由 于 摩 所 
力 ， 它 最 终 将 回 到 覃 的 底部 ， 我 们 称 这 个 位 置 为 渐 近 稳定 点 Casymptotically s stable point), 对 


它 将 在 下 一 小 节 中 精确 地 定义 。 
现在 看 图 17-2(b)。 在 一 个 平坦 表面 的 中 心 放置 了 一 个 球形 轴承 。 如 果 我 们 将 轴承 移 到 


一 个 不 同 的 位 置 ， 它 不 会 发 生 运动 。 既 然 轴承 移 走 后 没有 回 到 原来 的 位 置 ， 因 而 该 表面 中 心 
的 那个 位 置 不 是 渐 近 稳定 点 。 然 而 ， 从 某 种 意义 上 说 它 又 是 稳定 的 ， 因 为 至 少 小 球 没有 离 中 
心 点 越 滚 越 远 。 我 们 称 这 种 点 为 Lyapunov 意义 上 的 稳定 ， 这 将 在 下 一 小 节 中 定义 。 _ 

现在 考虑 图 17-2(e) 。 球 被 放 在 一 个 小 山 的 顶部 。 这 是 一 个 平衡 位 置 ， 事 实 上 ， 只 要 我 
们 小 心地 放置 小 球 ， 它 会 保持 在 小 山顶 部 。 然 而 ， 一 旦 小 球 受到 一 个 轻微 的 干扰 ， 它 就 会 滚 
下 山 。 这 是 一 个 不 稳定 的 平衡 点 。 


(a) 球 在 槽 底 (b) 球 在 平面 上 ， (e 球 在 山顶 上 


图 17-2 


在 下 一 章 ， 我 们 试图 设计 Hopfield 神经 网 络 ， 它 里 面 存储 的 原型 模式 将 是 一 些 渐 近 稳 
定 的 平衡 点 。 我 们 也 希望 这 些 稳定 点 的 吸引 区 尽 可 能 地 大 。 

举 个 例子 ， 考 虑 图 17-3。 我 们 希望 设计 像 情况 A 那样 拥有 很 大 吸引 区 的 神经 网 络 。 一 
个 自然 的 想法 是 一 个 以 很 大 摩擦 力 滚动 的 小 球 (初速 为 0) 被 放 在 情况 A 的 任 一 个 档 区 里 ， 它 
都 将 留 在 槽 区 内 并 最 终 找到 到 达 底部 (稳定 点 ) 的 路 径 。 然 而 ， 情 况 B 就 相对 复杂 了 。 例 如 ， 
如 果 带 摩擦 力 的 小 球 处 于 P 点 的 位 置 ， 那 么 不 能 确定 最 终 是 哪 一 个 稳定 点 会 捕获 小 球 。 小 


EE 
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情形 A 








大 的 吸引 模 
\ 
情形 8 复杂 的 吸引 区 域 
A 一 、 
图 17-3 Ral 

球 可 能 并 不 在 最 靠近 P 点 的 稳定 点 静止 下 来 。 要 指出 某 个 特定 的 稳定 点 的 吸引 区 有 多 大 也 
同样 困难 。 

至 此 我 们 已 经 提出 了 一 个 稳定 性 的 直观 概念 。 在 本 章 剩 下 的 部 分 我 们 将 对 它们 进行 严密 
的 数学 推导 。 

定义 


平衡 点 ”我 们 对 上 一 小 节 讨论 的 各 种 类 型 的 稳定 性 给 出 专门 的 数学 定义 。 在 这 些 定义 中 
将 讨论 平衡 点 的 稳定 性 。 一 个 平衡 点 a* 是 指使 等 式 (17,1) 中 导数 为 0 的 点 。 为 简化 问题 ， 
我 们 将 特别 讨论 点 a” = 0， 这 个 点 被 称 为 原点 。 这 一 限制 并 不 影响 讨论 的 一 般 性 。 

定义 1 稳定 性 (在 Lyapunov 的 意义 下 ) 

一 个 原点 是 稳定 的 平衡 点 ， 如 果 对 于 任意 给 定 的 值 s> 0 ， 总 存在 一 个 数 (e) >0， 使 得 
当 |a(0)| <d 时 产生 的 运动 a(1) 对 于 :>0 满 足 |a(1)| <eo 

这 个 定义 说 明 ， 只 要 一 个 系统 的 输出 最 初 接近 一 个 稳定 点 ， 那 e 
么 它 就 不 会 运动 到 离 稳定 点 太 远 。 讨 论 的 问题 是 希望 系统 的 输出 
保持 在 距离 原点 不 超过 8 的 范围 内 。 如 果 该 原点 是 稳定 的 ， 那么 总 能 找到 一 个 距离 8 可 能 是 
e 的 函数 )， 若 系统 在 时 间 =0 时 的 输出 落 在 离 原点 S 的 范围 内 ， 那 么 它 就 将 总 是 落 在 离 原 
点 < 的 范围 内 。 右 图 (图 17-2(b) ) 中 小 球 (初速 为 0) 的 位 置 在 Lyapunov 意义 上 是 稳定 的 ， 只 
要 小 球 会 受到 摩擦 力 的 作用 。 如 果 小 球 不 受到 摩擦 力 影响 ， 那 么 任意 一 个 初速 度 都 会 产生 小 
球 运动 轨迹 a( 1)， 其 位 置 永远 不 固定 。( 此 例 中 ， 向 量 a( 1) 应 由 小 球 的 位 置 和 速度 构成 。) 

下 面 ， 让 我 们 来 考虑 一 个 更 强 的 渐 近 稳 定性 概念 。 

定义 2 淅 近 稳定 性 . 

一 个 原点 是 一 个 渐 近 稳定 的 平衡 点 ， 如 果 存 在 一 个 值 $3>0， 只 要 |a(0)| < 8， 产生 的 运 
动 在 :>% 时 满足 |a( 1) | 一 0。 

这 是 稳定 性 的 一 个 较 强 的 定义 。 它 说 的 是 只 要 系统 的 输出 最 初 是 
在 离 稳 定点 距离 为 8 范围 之 内 ， 那 么 输出 就 最 终 收 傅 于 稳定 点 。 在 右 uw 
图 (图 17-2(a)) 中 ,小 球 (初速 为 0) 的 位 置 是 一 个 渐 近 稳定 点 ， 只 要 小 
球 会 受 摩擦 力 影响 。 如 果 没 有 摩擦 力 , 这 个 位 置 就 只 是 Lyapunov 意 
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义 上 的 稳定 点 。 - 

我 们 愿意 建立 一 个 拥有 很 多 特定 的 渐 近 稳定 点 的 神经 网 络 ， 它 们 中 的 每 -一 个 代表 一 个 原 
型 模式 。 这 即 是 我 们 将 在 第 18 章 建立 Hopfield 网 络 的 设计 目标 。 

除了 稳定 性 的 定义 ， 在 分 析 稳 定性 时 我 们 还 会 用 到 另 一 个 概念 。 那 就 是 定 函 数 (definite 
function) 的 概念 。 下 面 两 个 定义 将 阐明 这 个 概念 。 

定义 3 正定 

一 个 标量 函数 V(a), 4 V(0 =0 且 了 (a) >0(az0) 时 ， 称 为 正定 的 。 

定义 4 半 正 定 - 

一 个 标量 函数 Y(a)， 当 V(a) z0 (对 于 所 有 的 a) 时 ， 称 为 半 正 定 的 。 

(这 些 定义 可 做 适当 修改 用 来 定义 负 定 和 半 负 定 。) 现 在 我 们 已 定义 了 稳定 性 ， 计 我 们 来 
考虑 一 个 测试 稳定 性 的 方法 。 


17.2.3 Lyapunov 稳定 性 定理 


一 个 最 重要 的 研究 非 线性 系统 稳定 性 的 途径 之 一 ， 是 俄罗斯 数学 家 Alexandr 
Mikhailovich Lyapunov 介绍 的 理论 。 虽 然 他 的 主要 著作 早 在 1802 年 首次 出 版 ,但 是 直到 很 
久 以 后 才 引 起 俄罗斯 国外 学 者 的 注意 。 在 这 一 节 我 们 将 讨论 Lyapunov 的 一 个 最 强 有 力 的 关 
于 稳定 性 分 析 的 技术 一 一 直接 法 。 

考 上 处 一 个 自主 (无 外 力 ， 不 明显 依赖 于 时 间 ) 系 统 : 


da - g(a) (17.2) 


Lyapunov 稳定 性 定理 现在 可 表述 如 下 : 

定理 1 Lyapunov 稳定 性 定理 

如 果 能 够 找到 一 个 正定 函数 V(a)， 使 得 dV (a)/dt 是 半 负 定 的 ， 那 么 对 于 方程 (17.2) 所 
示 系 统 ， 原 点 (a= 0) 是 稳定 的 。 如 果 能 够 找到 一 个 正定 函数 Va), 1818 d V (a)/d: 是 一 个 负 定 
函数 ， 那 么 原点 (a= 0) 是 渐 近 稳定 的 。 在 这 种 情况 下 ，T 被 称 为 系统 的 Lyapuncv PARK. 

你 可 以 把 V (a) 看 作 一 般 的 能 量 函 数 。 该 定理 要 表明 这 样 一 个 概念 : 如果 一 个 系统 的 能 
量 在 持续 三 小 (dV (a)/dt 负 定 )， 那 么 它 将 最 终 处 于 某 个 最 小 能 量 状态 。Lyapunov 的 观点 使 
能 量 的 概念 一 般 化 ， 因 而 该 定理 可 被 应 用 到 能 量 难以 表达 或 没有 意义 的 系统 中 。 

我 们 应 该 注意 ， 该 定理 仅仅 说 明 如 果 能 找到 一 个 合适 的 Lyapunov 函数 V (a)， 系 统 就 
是 稳定 的 。 它 并 没有 告诉 我 们 一 个 不 能 找到 这 样 的 函数 的 系统 的 稳定 性 信息 。 


17.2.4 单 欣 例子 


可 以 通过 将 Lyapunov 的 稳定 性 定理 应 用 到 一 个 简单 的 机 械 系统 来 领会 它 。 这 个 系统 非 
常 简单 ， 并 且 其 操作 容易 可 视 化 ， 它 还 可 以 解释 在 下 一 章 应 用 到 神经 网 络 设计 中 的 一 些 重要 


概念 。 该 示例 系统 即 为 如 图 17-4 所 示 的 单 摆 。 
利用 牛顿 第 二 定律 (F = ma) ， 写 出 单 摆 的 运动 方程 如 下 ; 


2 
nl $30) =~ c L mgsin(8) (17.3) 


或 者 


17-5 


17-6 
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图 17-4 HUE 


ml D +c £ + mgsin(§) = 0 (17.4) 
其 中 6 为 摆 角 ，m 是 单 摆 的 质量 ，! EIK, c 是 阻尼 系数 ，g 是 引力 常量 。 

方程 (17.3) 中 等 号 右边 第 一 项 是 阻力 ， 它 与 单 摆 的 速度 成 正比 。 正 是 这 一 项 代表 了 该 系 
统 中 的 能 量 消耗 。 方 程 右边 第 二 项 是 重力 ， 它 与 摆 角 的 正 汞 成 正比 。 其 值 在 单 摆 垂 直 时 为 
0， 在 单 摆 水 平时 最 大 。 

当 阻尼 系数 不 为 0 时 ， 单 摆 会 最 终 停 挂 在 垂直 的 位 置 。 这 时 可 以 厦 作 6= 0， 而 更 一 般 
的 是 6=2rn， 其 中 m=0，+1，+2，+3，…。 也 就 是 说 ， 给 定 某 个 合适 的 初始 条 件 ， 单 
摆 可 以 处 于 6= 0 的 状态 ， 或 者 它 可 能 转 一 圈 到 达 6= 27 状态 ， 等 等 。 它 有 很 多 平衡 状态 。 
(在 位 置 6=rn 处 ， 对 于 奇数 mn， 这 些 位 置 是 平衡 点 ， 但 不 稳定 。) 

为 了 分 析 该 系统 的 稳定 性 ， 将 以 状态 变量 的 形式 写 出 单 摆 方 程 ， 它 们 将 表现 为 一 对 一 阶 
微分 方程 。 选 择 如 下 的 状态 变量 : 


a, = Qa, = Ë (17.5) 
以 这 些 状态 变量 的 形式 写 出 单 摆 方 程 如 下 : 
iu = 05 (17.6) 
da 
u = - Ý sinlar) - Sa (17.7) 


现在 来 考查 该 单 所 系统 原点 (a=0) 的 稳定 性 。( 原 点 对 应 于 摆 角 为 0 和 摆 速 为 0 的 状态 。) 首 
先 检 查 原点 是 一 个 平衡 点 。 将 a=0 代 入 状态 方程 ; 
dai 


2 0 (17.8) 
iu =- sinlar) - <a =- 7 sin(0) 一 二 (0) = 0 《17.9) 


既然 导数 为 0， 故 原点 是 一 个 平衡 点 。 
然后 要 找 出 单 摆 的 Lyapunov 函数 。 在 本 例 中 ， 将 用 系统 的 能 量 作 为 Lyapunov K$ V. 


为 得 到 单 摆 的 总 能 量 ， 将 其 动能 和 势能 相 加 : 
V(a) = T ml(a2)? + mgl(1 ~ cosl ay)) (17.10) 


为 了 测试 系统 稳定 性 ， 将 V 对 时 间 求 时 : 
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da, dt Jaz\ dt 
7Y(a) 的 偏 导数 可 从 等 式 (17.10) 中 求 得 ， 两 个 状态 变量 的 导数 已 在 等 式 (17.6) 和 (17.7) 
中 给 出 。 于 是 有 


AY) = [VV] g) = (e) e ES) (17.11) 


dv (a) = ( mgl sin(a;)) a; 十 (mi?a2) 一 sin( al) 一 a] (17.12) 
将 项 ( mgl sin( al)) as 取消 ， 只 剩 下 
(ag) =~ edla)? <0 (17.13) 


为 了 证 明 原 点 (a=0) 是 渐 近 稳定 的 ， 必 须 证 明 该 导数 是 负 定 的 。 在 原点 ， 该 导数 为 0， 
同时 只 要 cz = 0， 无 论 ai 为 什么 值 它 也 为 0。 这 样 ，dV (a)/dt 是 半 负 定 的 ， 而 不 是 负 定 
的 。 于 是 由 Lyapunov 定理 知 ， 原 点 是 一 个 稳定 点 。 但 是 ， 不 能 说 根据 定理 和 这 个 Lyapunov 
函数 ， 该 原点 是 浙 近 稳定 的 。 

在 这 种 情况 下 我 们 知道 ， 只 要 单 摆 有 摩擦 ， 它 就 将 最 终 停 在 垂直 位 置 ， 因 此 ， 原 点 确 是 
渐 近 稳定 的 。 但 是 ，Lyapunoy 定理 ， 利 用 Lyapunov 函数 ， 却 只 能 告诉 我 们 原点 是 稳定 的 。 
要 证 明 原 点 是 渐 近 稳定 的 ， 需 要 改进 Lyapunov CHW LaSalle PEHE, Lasalle 不 变性 
定理 将 在 下 一 小 节 讨 论 。 

首先 ， 让 我 们 用 特殊 的 数据 实例 来 进一步 研究 单 摆 。 令 gg=9.8, m -1, 1-9.8, 
c= 1.96。 重 写 单 摆 状 态 方程 如 下 : 


ila (17.14) 
du = -sin(a,) - 0.2a, (17.15) 
求 出 了 和 它 的 导数 如 下 ; 
V = (9.8)*| Laz)? + (1 ~ cost a1) (17.16) 
x = - (19.208) (a;? (17.17) 


注意 ， 对 任意 的 Ql 值 ， 只 要 a,=0, 即 有 dV/dt = 0。 


图 17-5 显示 了 当 摆 角 变化 范围 为 - 10 到 + 10 弧度 ， 角 速度 变化 范围 为 -2 到 +2 弧度 每 秒 时 ， 


能 量 曲面 V 的 三 维 图 和 等 值 图 。 注 意 在 这 个 范围 内 能 量 曲面 有 三 个 可 能 的 最 小 点 ， 在 0 和 +2r。 














图 17-5 单 摆 能 量 曲 面 
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(我 们 将 在 第 18 章 发 现 Lyapunov 函数 的 最 小 点 对 应 于 一 个 自 相 关 神 经 网 络 的 原型 模式 。 单 
摆 系 统 ， 正 如 递归 神经 网 络 ， 有 许多 最 小 点 。) 

当然 ， 从 能 最 图 17-6 中 不 知道 单 摆 以 什么 方式 或 者 由 什么 路 线 找到 了 特殊 的 能 量 最 小 
点 。 为 了 反映 这 个 情况 ,在 图 17-5 中 我 们 画 了 一 个 能 量 等 值 图 ， 上面 有 一 条 单 摆 的 特殊 路 
径 。 这 条 蓝 色 的 响应 轨迹 ， 从 1.3 弧度 (74°) 的 初始 位 置 a1(0) 和 1.3 弧度 每 秒 的 初始 速度 
az(0) 开 始 。 轨 迹 收敛 于 平衡 点 a= 0。 














图 17-6 “状态 变量 平面 的 单 摆 响 应 


两 个 状态 变量 的 时 间 响 应 如 图 17-7 所 示 。 请 注意 ， 因 为 初速 度 是 正 的 ， 故 单 搜 一 开始 
不 停 运 动 。( 察 看 是 否 与 图 17-6 一 致 。) 在 下 落 前 它 到 达 大 约 为 2 弧度 的 最 大 角 。 振 荡 将 持续 
衰减 至 两 个 状态 变量 都 收 傅 于 0。 


arn 1 
^ 


| 
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图 17-7. 状态 变量 a 与 a; 的 时 间 图 
在 本 例 中 ,两 个 状态 变量 都 收敛 于 0。 但是， 以 后 会 看 到 ， 这 并 不 是 惟一 可 能 的 平衡 


点 。 

画 出 如 图 17-8 的 单 摆 能 量 ( 了 ) 图 也 比较 有 意思 。 回 忆 方 程 (17.17 ) 能 量 永远 不 会 增加 ， 
这 与 图 17-8 一 致 。 方 程 (17.17) 还 预测 能 量 曲线 的 导数 只 有 当 速 度 a 为 0 时 才 会 为 0。 如 果 
比较 一 下 图 17-8 和 图 17-6， 这 也 得 到 了 验证 。 每 一 次 a; 的 图 形 穿 过 零 轴 ， 能 量 曲线 的 倾斜 


(17-10) 率 即 为 0。 
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图 17-8 单 摆 Lyapunov 函数 (能 量 ) 的 时 间 图 


请 注意 ， 虽 然 有 许多 点 能 量 曲线 的 导数 为 0， 但 导数 并 未 保持 为 0 直到 能 量 本 身 也 为 0。 
这 个 观察 将 导出 LaSalle 不 变性 定理 ， 在 下 一 小 节 会 讨论 到 。 该 定理 的 主要 思想 是 确定 那些 
Lyapunov 函数 导数 为 0 的 点 ， 并 判断 系统 是 否 会 陷入 那些 点 。( 那 些 可 能 使 一 条 轨迹 陷入 的 
地 方 叫做 不 变 集 。) 如 果 只 有 一 个 点 ， 能 使 轨迹 陷 人 ， 并 且 具 有 零 导数 ， 又 是 原点 ， 则 这 个 原 
点 即 为 渐 近 稳定 的 。 

这 一 小 节 以 图 的 形式 展示 了 基于 两 个 状态 变量 的 初始 条 件 的 特殊 单 摆 行 为 。 对 于 初始 条 
件 的 不 同 选择 将 会 导致 图 中 完全 不 同 的 结果 。 我 们 将 在 下 一 小 节 对 这 一 点 作 展开 讨论 。 


BZA A Neural Network Design Demonstration Dynamic System (nnd17ds) 。 





17.2.5 LaSalle 不 变性 定理 


单 摆 的 例子 展示 了 Lyapunov 定理 的 一 个 问题 。 我 们 找到 了 一 个 其 导数 仅 为 半 负 定 ( 而 不 
是 负 定 ) 的 Lyapunov 函数 ， 而 且 也 知道 原点 在 单 摆 系 统 中 是 渐 近 稳定 的 。 在 这 -一 小 节 ， 我 们 
将 介绍 一 个 阐明 Lyapunov 定理 不 确定 性 的 定理 。 它 定义 了 那些 使 Lyapunov 函数 的 导数 为 0 
的 状态 空间 中 的 区 域 ， 然 后 确定 区 域 中 能 使 轨迹 发 生 陷 入 的 那些 部 分 。 

在 讨论 LaSalle 不 变性 定理 之 前 ， 需 要 首先 介绍 下 面 的 定义 。 

1. 定义 

定义 5 Lyapunov 函数 

S 是 一 个 从 中 "到 亲 的 连续 可 微 函 数 。 若 CER 的 任 一 子 集 ， 称 V ÆRA dadi = 
g(a) 的 一 个 C 上 的 Lyapunov PR, RB 


dV (a) 


gi = (17.18) 


(VV(a))’g(a) 


在 C 上 不 改变 符号 。 
这 是 在 定理 1 中 用 到 的 Lyapunov 函数 前 述 定义 的 推广 ， 这 里 不 要 求 函 数 是 正定 的 。 事 


实 上 ， 对 函数 本 身 并 没有 直接 的 要 求 (除了 它 是 连续 可 微 的 )。 惟 一 的 要 求 是 关于 V 的 导数 。 
其 导数 在 集合 G 上 任何 地 方 都 不 改变 符号 。 注 意 ， 如 果 导 数 是 半 负 定 的 或 半 正 定 的 就 不 会 
改变 符号 。 
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应 留意 这 里 仍 没有 解释 怎样 选择 集合 C。 我 们 将 利用 下 面 的 定义 和 定理 为 一 个 给 定 的 
系统 选择 一 个 最 好 的 Go 
定义 6 REZ 
Z = la: dV(a)/dt = 0, a 在 C 的 闭 包 中 | (17.19) 
这 里 “6 的 闭 包 "包括 6 的 内 部 和 边界 。 这 是 一 个 关键 集合 。 它 包含 所 有 使 Lyapunov A 
数 导 数 为 0 的 点 。 以 后 将 决定 该 集合 中 的 哪些 地 方 会 使 系统 轨迹 发 生 陷入 。 
定义 7 不 变 集 
—^ 9t 中 的 点 集合 关于 da/dr = g(a) 是 不 变 的 ， 如 果 da/di = g(a) 的 每 一 个 解 开始 都 在 
集合 中 并 始终 保持 在 该 集合 中 。 
如 果 一 个 系统 进 人 了 某 个 不 变 集 ， 那 么 它 就 不 能 再 离开 。 
定义 8 KEL 
L 定义 为 Z 中 的 最 大 不 变 集 。 
该 集合 包括 所 有 可 能 使 解 收 化 的 点 。Lyapunov 函数 在 L 中 不 会 改变 (因为 其 导数 为 0)， 
并 且 轨 迹 将 会 在 工 中 陷 人 (因为 它 是 不 变 集 )。 现 在 ， 如 果 这 个 集合 只 有 一 个 稳定 点 ， 那 么 
那个 点 就 是 渐 近 稳定 的 。 这 即 是 LaSalle 定理 大 体 上 将 告诉 我 们 的 。 
2. 定理 
LaSalle 不 变性 定理 是 Lyapunov 稳定 性 定理 的 扩展 。 在 下 一 章 我 们 将 用 它 设计 Hopfield 
网 络 。 该 定理 推导 参见 [Lasa67]。 
定理 2 LaSalle 不 变性 定理 
di V dé da/di =g(a) 在 G 上 的 Lyapunov 函数 ， 那 么 对 于 所 有 上 > 0, 保留 在 G 中 的 每 
—/M a(t) 当 1o Bt, ATF L2 LUI 1o (6 具有 所 有 的 稳定 点 ， 是 对 上 的 吸引 区 。) 
车 所 有 的 轨迹 都 有 界 的 ， 则 当时 tf HI, a(t) Lo 
若 一 条 轨迹 停留 在 G 中 ， 那 么 它 也 将 收敛 于 工 ， 或 者 趋 于 无 限 。 如 果 所 有 的 轨迹 都 是 
有 界 的 ， 那 么 所 有 的 轨迹 都 将 收敛 于 Lo 
有 一 个 我 们 将 广泛 使 用 的 LaSalle 定理 的 推论 ， 它 涉及 以 一 种 特殊 的 方式 选择 集合 CH 
问题 。 
推论 1 LaSalle 定理 的 推论 
令 G 包含 于 集合 
Q, = la: V(a) < (17.20) 
中 (作为 一 个 连通 的 子 集 )。 假 设 G 是 有 界 的 , TEC 上 dV(a)/dt<0， 且 令 集 合 D? = closure 
(LNG) G 的 一 个 子 集 。 那 么 L* 是 一 个 吸引 子 ， 而 6 在 它 的 吸引 区 内 。 
LaSalle 定理 以 及 它 的 推论 都 是 很 有 用 的 。 它 们 不 仅 告 诉 了 我 们 哪些 点 是 稳定 的 (5°)， 
而 且 也 给 我 们 提供 了 部 分 的 吸引 区 ( C)。( 注 意 L* 在 推论 中 的 定义 与 定理 中 的 不 一 样 。) 
为 阐明 LaSalle 不 变性 定理 ， 让 我 们 回 到 先前 讨论 的 单 摆 例子 中 。 
3. 例子 
将 推论 1 运用 于 单 摆 例 子 。 第 一 步 是 要 选择 集合 Q,， 该 集合 将 被 用 来 选择 集合 G( 0 的 
一 部 分 )。 
在 本 例 中 使 用 值 n= 100， 因 此 Qioo 即 为 能 量 小 于 等 于 100 的 点 组 成 的 集合 。 
Qoo = ia: V(a) < 100} (17.21) 








该 集合 用 黑色 显示 在 图 17-9 中 。 
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图 17-9 集合 Qioo 的 图 示 


分 析 的 下 一 步 是 选择 io 的 一 个 部 分 (连通 的 子 集 ) 作 为 集合 C。 既 然 研究 的 是 原点 的 稳 
定性 ， 就 选择 包含 a= 0 的 Qio 的 那个 部 分 。 该 子 集结 果 如 图 17-10 所 示 。 











图 17-10 集合 6 的 图 示 


现在 已 选 完了 集合 C， 下 面 需要 检查 Lyapunov 函数 的 导数 在 C 上 是 否 小 于 等 于 0。 由 
方程 (17.17) 知 ，dV(a)/dt 是 半 负 定 的 ， 因 此 它 在 6 上 当然 小 于 等 于 0。 
现在 准备 确定 吸引 子 集合 Le. AZ 中 的 最 大 不 变 集 上 开始 。 
Z= la: dV(a)/dt = 0,2 Æ CG 中} (17.22) 
= ja: a = 0,a TE G} ' 
这 也 可 以 写成 
Z = ja: a. = 0, -16< 4, <1.6} (17.23) 
由 方程 (17.17) 知 Y(a) 的 导数 仅 当 速度 为 0 时 才 为 0， 这 相当 于 a BH. ERE Z 即 由 落 
在 G 中 的 那 段 as WHR. EA Z 显示 在 图 17-11 中 。 . 
集合 L EZ 中 的 最 大 不 变 集 。 要 找到 上 就 必须 回答 这 样 一 个 问题 ， 如 果 在 -1.6 与 1.6 
弧度 间 的 初始 位 置 以 零 初 速度 释放 单 摆 ， 那 么 单 摆 的 速度 会 保持 为 零 吗 ? 很 清楚 这 样 的 初始 
条 件 只 能 是 在 0 弧度 处 (垂直 悬挂 )。 如 果 在 2 中 的 其 他 任意 位 置 释放 单 摆 ， 单 摆 都 会 下 落 ， 
因而 速度 不 会 保持 为 零 并 且 轨 迹 将 会 移出 2 的 范围 。 因 此 ， 集 合 工 只 含有 原点 : 
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图 17-11 集合 Z 的 图 示 


17-15] | L = {a:az=0} (17.24) 
合 L* 是 1 和 6 的 交集 的 闭 包 ， 在 本 例 中 ， 它 就 是 L: 
L° = closure( L N G) = L = jata= 0| (17.25) 


因此 ， 根 据 LaSalle 推论 ， 忆 是 一 个 吸引 子 ( 渐 近 稳定 点 )， 而 6 是 在 它 的 吸引 区 内 。 这 意味 
着 任何 开始 于 C 的 轨迹 都 将 衰减 至 原点 。 


现在 ,假设 有 一 个 更 大 范围 的 Q;， 例 如 
Qa = la: V(a) < 300} (17.26) 


该 集合 在 图 17-12 中 用 灰色 表示 。 


图 17-12 6 = Qsoo( 灰 色 ) 和 Z 的 图 解 
TS 令 G=Qso0， 因 为 Qsoo 只 有 一 个 部 分 。 集合 Z 由 下 式 给 出 : 


Z = |a: a, = 0} (17.27) 
它 在 图 17-12 中 用 水 平 轴 上 的 黑色 条 表示 。 这 样 可 以 推 知 
L°? = L = |a: a, =+nn,a, = 0} (17.28) 


这 是 因为 现在 Z 中 有 几 个 不 同 的 位 置 ， 在 那些 地 方 放 置 单 摆 不 会 导致 速度 变 成 非 零 。 单 摆 
可 能 直接 朝 上 或 朝 下 。 这 相当 于 + nr 的 位 置 ，n 是 任意 整数 。 如 果 将 单 摆 置 于 这 些 位 置 中 
任 一 处 ， 初 速 为 零 ， 那 么 单 摆 将 保持 静止 。 可 以 令 方程 (17.14) 和 (17.15) 中 导数 为 零 来 表明 
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iA: 
d 
= a2 = 0 (17.29) 
da; . 。 
[e =- sin(aj) - 0.2a; = — sin(a) = 0) (a, =+ nn) (17.30) 


在 G = Qao 这 个 选择 下 ， 很 难说 轨迹 会 在 哪 一 个 点 收敛 。 我 们 试图 增加 已 知 的 原点 吸引 
区 的 大 小 , 但 6 是 一 个 对 所 有 平衡 点 的 吸引 区 。 我 们 使 C 过 于 大 了 。 集 合 LER 17-13 中 
用 黑色 点 表示 。 


图 17-13 E L 


我 们 不 能 分 辨 娜 一 个 平衡 点 (黑色 点 ) 将 吸引 轨迹 。 所 有 我 们 能 说 的 是 如 果 从 Daoo 中 某 个 
地 方 开始 ， 有 一 个 平衡 点 将 吸引 系统 的 解 ， 但 不 能 确切 地 说 出 是 哪个 点 ， 例 如 ， 考 虑 如 图 4747 
17-14 的 轨迹 。 它 表示 一 个 初始 位 置 为 2 弧度 、 初 速度 为 1,5 弧度 每 秒 的 单 舞 的 响应 轨迹 。 

这 时 单 摆 具 有 足够 大 的 速度 跨 过 顶部 ， 然 后 收敛 于 位 于 2* 弧度 的 平衡 点 。 














图 17-14 ”不同 起 始 条 件 下 的 单 摆 轨 迹 


至 此 已 讨论 了 LaSalle 不 变性 定理 ， 你 可 能 想 做 些 更 多 的 单 摆 实 验 ， 去 分 析 不 同 
的 稳定 点 的 吸引 区 。 做 单 摆 实 验 请 用 Neural Network Design Demonstration Dy- 





namic System (nnd17ds) 。 
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4. 评述 

LaSalle 定理 的 关键 是 对 Lyapunov 函数 V 和 集合 C 的 选择 。 我 们 希望 G 尽 可 能 地 大 ， 
因为 它 指示 着 吸引 区 的 范围 。 但 是 ， 又 希望 选择 V 进而 使 集合 Z 尽 可 能 地 小 ， 因 其 包含 有 
吸引 子 集合 。 

举 个 例子 ， 试 令 V=0. KBR" 整个 空间 上 的 一 个 Lyapunov 函数 ， 它 的 导数 无 论 在 何 
EEA 0( 因 此 不 会 改变 符号 ) 。 但 是 ， 由 于 Z =9R"， 并 未 得 到 什么 信息 。 

注意 ， 如 果 V WV. 都 是 G 上 的 Lyapunov MR, H dVj/dt 与 d V5/dt 有 相同 的 符 
号 ,那么 了 = V+ 六 也 是 一 个 Lyapunov PRÉ, RSBPZZQOZGó WR Z eZ, 和 2Z, H 
小 ,那么 了 是 一 个 比 V xk V; 都 “更 好 ”的 Lyapunov BR. V 总 是 至 少 与 V, 或 Ya 一 样 
“好 ”， 因 为 Z 永远 不 会 比 2 和 Z 中 的 较 小 者 大 。 因 此 ， 如 果 你 发 现 了 两 个 Lyapunov K 
数 ， 并 且 它 们 的 导数 具有 相同 的 符号 ， 那 么 将 它们 加 到 一 起 ， 你 将 获得 一 个 更 好 的 函数 。 对 
于 一 个 给 定 的 系统 。 其 最 好 的 Lyapunov 函数 是 那 种 具有 最 小 的 吸引 子 集合 和 最 大 的 吸引 区 

17-18 的 函数 。 


17.3 小 结 


稳定 性 概念 

定义 

定义 1 稳定 性 (在 Lyapunov 的 意义 下 ) 

原点 是 一 个 稳定 平衡 点 ， 如 果 对 于 任意 给 定 值 。> 0 ， 总 存在 一 个 数 5(e) > 0， 使 得 当 
lato) | < 5 时 产生 的 运动 a(1) 满 足 |a(1)| <s(t> 0)。 

定义 2 Buts 

原点 是 一 个 渐 近 稳定 平衡 点 ， 如 果 存在 一 个 值 > 0 ， 使 得 当 | a(0) | «a 时 产生 的 运动 
在 1 一 w 时 满足 |a(1)| 一 0。 

定义 3 正定 

一 个 标量 函数 V(a), 24 V(0) 20 E V(a) >0(az0) 时 是 正定 的 。 

EX4 KER 

一 个 标量 函数 V(a), 4 V(a) >0 (对 于 所 有 8) 时 是 半 正 定 的 。 


Lyapunov 稳定 性 定理 


考虑 一 个 自主 (无 外 力 的 不 明显 地 依赖 于 时 间 ) 的 系统 
da 

dt ^ 89 
Lyapunov 稳定 性 定理 可 表述 如 下 。 

定理 1 Lyapunov 稳定 性 定理 

如 果 能 够 找到 一 个 正定 函数 V(a)， 使 得 dV (a)/dt 是 半 负 定 的 ， 那 么 对 于 方程 (17.2) 
所 示 系 统 ， 原 点 (a= 0) 是 稳定 的 。 如 果 能 够 找到 一 个 正定 哨 数 V(a)， 使 得 dV (a)/dt 是 一 
个 负 定 函数 ， 那 么 其 原点 (a = 0) 是 渐 近 稳定 的 。 在 这 种 情况 下 ，『 被 称 为 系统 的 Lyapunov 


17-19; 函数 。 
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LaSalle 不 变性 定理 


定义 
定义 5 Lyapunov BH 
4 VV 是 一 个 从 RH" Sig ES RI GRE. Æ CER 的 任 一 子 集 ， 称 V 是 系统 da/dt = 
g(a) 在 G 上 的 Lyapunov 函数 ， 如 果 
IK _ (YY(a))7g(a) 


在 G 上 不 改变 符号 。 


定义 6 集合 Z 
Z = lia:dV(a)/dt = 0，a 在 G 的 闭 包 中 | (17.31) 
定义 7 不 变 集 
KR” 中 的 一 个 点 集合 G 关于 da/di = g(a) 是 不 变 的 ， 如 果 da/d = g(a) 的 每 一 个 开始 于 C 
中 的 解 始终 保持 在 G 中 。 
定义 8 KEL 
工 定 义 为 2 中 最 大 的 不 变 集 。 
定理 


定理 2 LaSalle 不 变性 定理 

# V & da/dt =g(a) 在 G Ef Lyapunov 函数 ， 那 么 对 于 所 有 上 > 0，C 中 的 每 一 个 解 
a(:)34 r— o BERE L* = LUI |. CC 具有 所 有 的 稳定 点 ， 是 对 工 的 吸引 区 。) 若 所 有 的 轨 
迹 都 是 有 界 的 ， 则 当时 tot alt) Le 

推论 1 LaSalle 定理 的 推论 

令 6 包含 于 集合 

Q, = la: V(a) < nl (17.32) 

中 (作为 一 个 连通 的 子 集 )。 假 设 6 是 有 界 的 ,在 G 上 dY(a)《/dis0， 且 令 集合 L= closure 
(LNG) G 的 一 个 子 集 。 那 么 1* 是 一 个 吸引 子 ， 而 G 是 它 的 吸引 区 。 


17.4 例题 
P17.1 测试 下 面 系统 中 原点 的 稳定 性 : 
da,/dt 2- a; + (a)? 
da,/dt =- alai + 1) 


解 
这 里 基本 的 工作 是 找到 一 个 正定 的 Lyapunov PARK V (a), 其 导数 是 半 负 定 的 ， 或 者 ， 
更 好 是 负 定 的 。( 后 者 是 一 个 更 强 的 条 件 。) 
试用 V(a) = (a1)?+ (gs)*。V(a) 的 导数 为 
d Y (a) da) _ 2V(da) | 2V(da; 
dt 7 en(g) = TA Ta) + Al a 


或 者 
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arla) -2a,(- a, + (a2) ) + 2a2(- alai +1)) 2 - 2(a,)? - 2( a2)” 


导数 d V (a)/d: 是 负 定 的 。 因 此 ， 原 点 是 渐 近 稳定 的 。 
P17.2 测试 下 面 系统 中 原点 的 稳定 性 ; 
da,/dt =- (a4)? 
da;/dt = — Sla)” 
解 
试用 V(a) = (a)? + (a) THA 
dV) = 2oi(- (ao0)9+20(-5(oa)7) == 2(0a)5- 10(a2* 
XE dV(a)/dt 也 是 负 定 的 ， 因 此 原点 是 渐 近 稳定 的 。 
P17.3 考虑 图 17-15 所 示 的 机 械 系 统 。 这 是 一 个 具有 一 个 非 线性 弹簧 的 弹簧 - WR - TR. 
尼 器 系统 。 我 们 定义 cl = x 和 aa = dx/d:， 则 运动 方程 为 
da,/dt = a; 
daz/dt = - (a - as (EE TESE RE) 
考虑 候选 Lyapunov 函数 
V(a) = Ela) + (a2)? 


利用 LaSalle 不 变性 定理 的 推论 提供 尽 可 能 多 的 关于 平衡 点 和 吸引 区 的 信息 。 


Vx 


Æ 17-15 机械 系 统 
解 
首先 计算 V(a) 的 导数 ， 
dv (a) ?| ee) avda) - (a1)a5 + azl- Ca? - a5) = (a 


dt "8a, dt / aa dt 
i, dV/dt ER 上 不 改变 符号 。 
现在 定义 


G =, = la: V(a) <7} 
FAZE y=1 的 情况 。V(a) 的 等 值 图 如 图 17-16 所 示 。 集 合 Os 在 图 中 用 黑色 标志 。 
现在 要 判定 集合 Z。 
Z= ia:dV/dt 20, af CHAMP] = lata, 20, adE CHAAR 
或 者 
Z = la: a = 0, -V2 < a, <V2} 
FARES Lo. HF a = 0 是 惟一 的 不 变 集 ， 
L = ia:a 20, a =0} 
因此 ， 原 点 

















图 17-16 T(a) 和 0 的 等 值 图 


[o 
8 = 
0 
是 一 个 吸引 子 ， 且 Qi 即 为 它 的 吸引 区 。 

进一步 ， 可 以 增加 1 值 ， 使 整个 外” 都 是 原点 的 吸引 区 。 

图 17-17 Fo Y 385€ - 物 块 -阻尼 器 从 初始 位 置 2、 初 始 速度 2 开始 的 响应 。 注 意 ， 加 
迹 在 穿 过 a; 轴 时 与 等 值 线 平行 。 这 与 早先 的 结论 相符 ， 即 只 要 aa = 0 时 ，Lyapunov 函数 
的 导数 为 0。 幸运 的 是 ，a, 轴 不 是 一 个 不 变 集 ( 除 了 原点 以 外 ); 因而 轨迹 只 被 原点 所 吸引 。 











17-17 弹簧 - 物 块 - 阻尼 器 响应 


P17.4 考虑 下 面 的 非 线性 系统 ; 
da,/dt = a1((a1)? t (a3)? - 4) - a 
daz/dt = a, + a(l lai)? + (az)? - 4) 


该 系统 具有 两 个 不 变 集 ， 即 原点 


{a:a= 0} 


AB 


fa: (ai)? + (a>)? = 4} 


假设 候选 Lyapunov PRX 
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V(a) = (a, t (a2)? 
利用 LaSalle 不 变性 定理 ， 找 出 关于 原点 吸引 区 的 尽 可 能 多 的 信息 。 


解 
于 是 ,我 们 的 工作 是 判断 所 给 的 不 变 集 是 否 代 表 了 一 个 稳定 点 或 者 一 个 稳定 的 轨迹 。 首 


先 看 一 看 4V/dt。 回 想 


dV(a - 2r (du) av (dei) 


dt dt aaz dt 
替换 其 可 变 项 得 到 
dita) = 2a;[a;((a,)* + (a2)? - 4) - az] + 2a5[ a4 + a2((a,)? + (a5)? - 4)] 
化 简 为 


AV Ca) + (a) (Ca? + Caa)? - 4) 


这 样 ， 在 a= OARbTUXEBICG;) + (a) 24 E, dV/dt 等 于 0。 
现在 选取 吸引 区 Co FRR 上 dV/di 的 符号 有 改变 吗 ?” 有 。 当 我 们 在 2 孤 度 处 从 圆 
的 外 部 进入 圆 的 内 部 时 ，dyV/di 的 符号 由 正 变 到 负 。 因 此 dV/dt ÆR Ca)? (a3)? = 4 内 
1724 部 是 半 负 定 的 。 在 此 圆 内 部 选 一 个 CE， 使 圆 不 被 包括 在 其 中 。 下 面 的 集合 满足 要 求 ， 


C = 0 = la: V(a) g 1l 
现在 考虑 Qi。 刚 好 有 两 个 地 方 dV/drz0, 并且 Qi 内 仅 有 的 一 个 点 为 a= 0。 因 此 


Z=ja:al=0， a, = 0} 


LL=L=Z 
BAARSIF, O, 是 它 的 吸引 区 。 可 以 用 同样 的 理由 说 明 原 点 的 吸引 区 包括 圆 (cl)+ 


(a1)? 2 4 内 部 的 所 有 点 。 
图 17-18 画 出 了 该 系统 的 两 条 轨迹 ， 一 条 开始 于 圆 (41)? + (a) =4 的 内 部 ， 另 一 条 开 
始 于 该 圆 的 外 部 。 虽 然 该 加 是 一 个 不 变 集 ,但 它 不 是 一 个 吸引 子 。 这 个 系统 惟一 的 吸引 子 是 


原点 。 

















a) 


图 17-18 例题 P17.4 的 样本 轨迹 
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P17.5 考虑 下 面 的 非 线性 系统 : 

da(t)/(dt) =- (a(t) -1)(a(t) - 2) 
(i) 找 出 所 有 该 系统 的 平衡 点 。 
(ii) 利用 候选 Lyapunov 函数 


V (a) = (a - 2)? 


获取 你 能 从 (i) 小 题 中 找到 的 有 关 平 衡 点 吸引 区 的 所 有 信息 。( 提 示 : 利用 LaSalle 不 变性 定 
理 的 推论 。) 


解 - 
(i) 为 找 出 平衡 点 , 令 da(r)/dt «0. 


0=-(a-1)la-2) > a = 1,a = 2 为 平衡 点 
(ii) 为 利用 LaSalle 定理 的 推论 ， 需 要 求 dV/di o 


= (32) - 2(a - 2)[- (a - 0(a - 2) =- 2a - Da - 2? 


现在 令 
= Q= la: V(a) « ql 
例如 ， 取 7= 0.5， 于 是 
G =% 5 = la:(a - 27 « 0.5} 


注意 ,求解 (a -2) «0.518 
£(a-2)« v0.5 或 者 1.3 < a < 2.7 


iU, dV/dt EC 上 是 负 定 的 。 
接 下 来 要 找 出 集合 Z, CRET G 中 那些 使 dV/dt 等 于 零 的 点 。 有 两 个 点 使 dV/di 
等 于 0, 即 a=1 和 a=2。 其 中 只 有 一 个 落 在 GH, Alt 
Z-ia:a 2l 
现在 需要 找到 二 ， 即 Z 中 的 最 大 不 变 集 。2 中 只 有 一 个 点 ， 而 且 是 一 个 平衡 点 ， 于 是 
I -LzZ 
这 意味 着 6 处 于 Z 的 吸引 区 中 。 
可 以 用 同样 的 方法 将 7 增 为 1.0 重 来 一 次 。 于 是 可 以 说 对 于 a = 2 RG 区 至 少 应 包括 
ia:1«a«3| 
如 果 考 虑 那些 ?> 1 的 区 域 会 怎样 呢 ? OE Z 包括 10 2 YE, dV /dt EG 上 将 改变 符 
号 。 因 此 使 用 这 个 Lyapunov 函数 和 LaSalle 不 变性 定理 的 推论 ， 就 不 能 赔 出 任何 关于 a = 1 


的 吸引 区 的 内 容 。 
图 17-19 展示 了 这 个 系统 某 些 典型 的 响应 。 这 里 可 以 看 出 平衡 点 = 1 其 实 是 不 稳定 的 。 
任何 超过 a = 1 的 初始 条 件 都 会 收敛 于 a = 2。 任 何 小 于 a = 1 的 初始 条 件 都 会 趋 于 负 无 穷 大 。 
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图 17-19 ”例题 P17.5 的 稳定 和 不 稳定 响应 
17.5 ”结束语 


在 这 一 章 里 ， 作 为 动力 系统 的 应 用 ， 提 出 了 稳定 性 的 概念 。 对 于 非 线 性 的 动力 系统 ， 如 
像 递归 神经 网 络 ， 我 们 不 讨论 有 关系 统 稳定 性 的 问题 ， 而 是 讨论 某 些 系统 轨迹 的 稳定 性 ， 特 
别 是 在 平衡 点 位 置 。 

本 章 主要 讨论 了 两 个 稳定 性 定理 。 第 一 个 是 Lyapunov 稳定 性 定理 ， 它 介绍 了 广义 的 能 
&— Lyapunov 函数 的 概念 。 这 个 定理 背后 的 思想 是 ， 如 果 一 个 系统 的 “能 量 " 总 在 减 小 ， 
那么 它 最 终 将 稳定 于 最 小 “能 量 " 点 上 。 

提出 的 第 二 个 定理 是 LaSalle 不 变性 定理 ， 它 是 Lyapunov 稳定 性 定理 的 一 种 加 强 。 
LaSalle 作出 了 两 个 主要 改进 。 第 一 是 阐明 这 样 一 种 现象 ，Lyapunov 函数 在 整个 状态 空间 不 
减 小 ， 但 是 在 某 些 区 域 保持 常数 值 。LaSalle 定理 引信 不 变 集 的 概念 来 确定 那些 区 域 ， 它 们 
可 以 捕 提 系统 轨迹 。LaSalle 定理 作出 的 第 二 个 改进 是 ， 它 不 仅 指 明了 平衡 点 的 稳定 性 ， 而 
且 也 给 出 了 关于 每 个 稳定 点 的 吸引 区 的 信息 。 

这 一 章 提 出 的 一 些 思 想 是 分 析 递 归 神 经 网 络 的 重要 工具 ， 如 对 于 第 15 章 和 第 16 章 的 
Grossberg 网 络 的 分 析 。(LaSalle 不 变性 定理 在 递归 神经 网 络 中 的 应 用 参见 [CoGr83]。) 在 第 
18 章 ， 将 利用 LaSalle 定理 解释 Hopfield 网 络 的 操作 。 
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这 篇 文章 提供 了 对 Lyapuov 稳定 性 理论 及 其 的 几 种 扩展 的 统一 表示 。 文 中 介绍 了 
LaSalle 不 变性 定理 和 若干 推论 。 

[SILi91] J. - J. E. Slotine and W. Li, Applied Nonlinear Control, Englewood Cliffs, NJ: 

Prentice-Hall, 1991. 
主要 介绍 非 线性 控制 系统 ， 本 书 的 很 大 一 部 分 内 容 集 中 在 动态 非 线 性 系统 的 分 析 
上 。 书 中 还 提出 和 展示 了 一 些 稳定 性 定理 。 


习题 
E17.1 利用 Lyapunov 稳定 性 定理 测试 下 面 系统 中 原点 的 稳定 性 。 
Ci) da,/dt = - (a1)? + a, 
daz/dt 三 一 CI 一 C2 
(ii) da,/dt = - a, + (a5)? 


da;/dt = - a5(a, +1) 
E17.2 考虑 下 面 的 非 线性 系统 : 
da,/dt = a; - 2a,((a,)? + (a2)}) 
daz/dt =- a, - 2a5((a1)? + (a2)?) 
(i) 利用 Lyapunov 稳定 性 定理 和 下 面 所 示 的 候选 Lyapunov 函数 考察 原点 的 稳 
定性 ; 
V(a) = a(a1)? + B(as)? 
(ii) 遂 过 写 出 MATLAB M- 文 件 来 模拟 该 系统 对 几 个 不 同 的 初始 条 件 的 响应 
检查 你 在 (i) 小 题 得 到 稳定 性 结果 。 利 用 ode45 例 行 程序 。 画 出 响应 图 。 
E17.3 对 于 非 线性 系统 da/dt = sin(a) 
Ci) 找 出 所 有 不 变 集 。 
(ii) 找到 一 个 Lyapunov 函数 ， 并 指出 吸引 子 及 其 吸引 区 。 
E17,4 考虑 下 面 的 非 线性 系统 ， 
da;/dt = a» 
da;/dt =~ a, ~ (a)? 
(i) 找 出 所 有 平衡 点 。 
(站 ) 找 出 尽 可 能 多 的 关于 这 些 平衡 点 稳定 性 的 信息 ， 利用 LaSalle 定理 的 推论 
候选 Lyapunov 函数 
V(a) = (a)? + (a2)? 
(iii) 通过 写 出 MATLAB M- 文 件 模拟 该 系统 对 几 个 不 同 的 初始 条 件 的 响应 ， 检 
查 (i) Gi)/ MEA. RIF ode45 例 行 程序 。 画 出 响应 图 。 
E17.5 考虑 下 面 的 非 线性 系统 ， 
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da/dt = (1-a)(l+ a) 21- à? 

Ci) 找 出 所 有 平衡 点 。 

(ii) 找到 一 个 合适 的 Lyapunov 函数 。( 提 示 : 从 dV/di 形式 人 手 ， 反 向 推导 找 
B V.) 

(iii) 画 出 Lyapunov 函数 简 图 。 

(iv) 利用 LaSalle 定理 的 推论 和 (i) 小 题 的 Lyapunov 函数 找 出 关于 吸引 区 的 尽 可 
能 多 的 信息 。 可 能 的 话 使 用 图 形 。 
(dim: 图 17-20 中 所 示 图 形 可 能 会 有 帮助 。) 





f(a) 2 1 - (a/B? 





17-20 ”对 习题 E17.5 有 帮助 的 函数 


E17.6 考虑 系统 
da,/dt = a; - a1((a))* + 2(a5)? - 10) 
da;/dt = - (a1)? - 3(a5)5((a,)* + 2(a2)? - 10) , 

(i) 求 所 有 不 变 集 。( 为 有 助 于 确定 不 变 集 ， 可 以 用 MATLAB M- 文 件 模拟 此 系 

统 。) 
(ii) 利用 候选 Lyapunov 函数 

V(a) = ((a,)4 + 2(a2)? - 10) . 
和 LaSalle 定理 的 推论 ， 考 查 你 从 (i 题 求 出 的 不 变 集 的 稳定 性 。 


第 18 章 Hopfield 网 络 


18.1 目的 

本 章 将 要 讨论 Hopfield 递归 神经 网 络 。 这 种 网 络 对 20 世纪 80 年 代 初 神经 网 络 研究 的 重 
新 兴起 有 重大 影响 。 我 们 首先 给 出 这 个 网 络 的 描述 ， 然 后 将 展示 如 何 用 Lyapunov 稳定 性 原 
理 来 分 析 网 络 的 运算 。 最 后 ， 我 们 将 说 明 如 何 设计 网 络 使 其 具有 联想 存储 器 性 能 。 

本 章 把 前 面 各 章 讨论 的 主题 结合 起 来 :离散 型 Hopfieid 网 络 (第 3 章 ); 特征 值 与 特征 向 
量 ( 第 6 章 ); 联想 存储 器 和 Hebb 规则 (第 7 章 ); 功 森 矩阵 、 最 优 条 件 、 二 次 函数 和 曲面 以 
及 轮廓 图 (第 8 章 ); 最 速 下 降 法 和 状态 平面 轨迹 (第 9 章 ); 连续 的 递归 网 络 (第 15 章 ); 
Lyapunov 稳定 性 定理 和 LaSalle 不 变性 定理 (第 17 章 )。 这 一 章 在 某 些 方面 是 前 面 各 章 工作 
的 最 终结 果 。 


18.2 理论 和 实例 


在 20 世纪 80 年 代 初 期 ， 神 经 网 络 研究 的 重新 兴起 可 归功 于 John Hopfield 的 工作 。 作 为 
一 个 著名 的 物理 学 家 ，Hopfield 的 名 声 和 科学 资历 使 人 们 对 神经 网 络 的 研究 恢复 了 信心 。 在 
60 年 代 中 期 ， 由 于 误解 人 们 对 神经 网 络 的 研究 前 景 很 不 乐观 。 在 Hopfield 早期 学 术 活 动 中 ， 
他 曾 研 究 光 和 固体 间 的 相互 作用 。 后 来 ， 他 集中 精力 研究 生物 分 子 间 的 电子 转移 机 制 。 可 以 
想像 ， 他 在 数学 和 物理 学 上 的 学 术 研 究 和 他 后 来 在 生物 学 上 的 经 验 的 结合 ， 为 他 在 神经 网 络 
提出 的 概念 和 所 作 的 贡献 英 定 了 基础 。 

Hopfield 分 别 在 1982 年 和 1984 年 写 了 两 篇 非常 有 影响 的 论文 [Hopf82] 、[Hopf84]。 这 
两 篇 文章 集中 了 前 人 的 许多 观点 ， 如 McCulloch 和 Pitts 的 神经 模型 [ McPi43 ] , Grossberg 的 
改进 模型 [ Gros67], Anderson 和 Kohonen 的 线性 联想 器 模型 [Ande72]、[Koho72] 以 及 An- 
derson, Silverstein, Ritz 和 Jones 的 盒 中 脑 状态 模型 [AnSi77]。Hopfield 的 论文 可 读 性 好 ， 
他 把 一 些 重要 思想 结合 起 来 并 进行 了 简明 的 数学 分 析 ( 包 括 Lyapunov 稳定 性 定理 的 应 用 )。 

还 有 一 些 原 因 使 Hopfield 的 论文 显得 如 此 重要 。 首 先 ， 他 指出 了 神经 网 络 与 统计 物理 学 
中 磁性 材料 的 Ising 模型 的 相似 之 处 。 这 就 使 许多 已 存在 的 理论 可 用 来 对 神经 网 络 进行 分 析 ， 
同时 也 圾 舞 了 很 多 物理 学 家 以 及 其 他 科学 家 和 工程 师 开始 注意 对 神经 网 络 的 研究 。 

Hopfield 也 与 VLSI 芯片 的 设计 者 们 有 接触 ， 因 为 他 长 期 与 AT&T 贝尔 实验 室 保持 联 
系 。 早 在 1987 年 ， 贝 尔 实验 室 就 已 成 功 的 在 Hopfield 网 络 基础 上 开发 了 神经 网 络 芯片 。 神 
经 网 络 的 一 个 主要 应 用 前 景 在 于 VLSI 和 光学 设备 的 并 行 实现 。Hopfield 发 表 了 他 的 网 络 实 
现 思想 也 就 使 他 与 先前 的 神经 网 络 研 究 者 区 分 开 来 。 

Hopfield 强调 实践 ， 不 仅 体现 在 他 的 网 络 的 实现 上 ， 同 时 也 体现 在 这 些 网 络 所 解决 的 问 
题 上 。 他 早期 的 论文 描述 的 应 用 包括 按 内 容 寻 址 存储 器 (后 文 将 要 讨论 )， 模 数 转 换 


‘TaHo86] 及 优化 问题 [HoTa85]( 如 货 郎 担 问题 )。 
下 一 节 将 要 提出 Hopfield 模型 。 我 们 使 用 Hopfield 1984 年 的 论文 [Hopf84j] 中 的 连续 型 
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模型 。 然 后 ， 用 Lyapunov 的 稳定 性 原理 和 LaSalle 不 变性 定理 来 分 析 Hopfield 模型 。 最 后 一 
节 我 们 将 展示 如 何 使 用 Hebb 规则 把 Hopfield 网 络 设计 成 按 内 容 寻 址 的 存储 器 。 


18.2.1 Hopfield 模型 


Hopfield 模型 与 他 的 实 丰 观点 一 致 ，Hopfield 以 电路 的 形式 提出 了 他 的 模型 。 基 本 的 
模型 ( 见 [ Hopf84]) 如 图 18-1 所 示 。 





图 18-1 Hopfield 模型 


每 个 运算 放大 器 及 其 相关 的 电阻 /电容 网 络 代表 一 个 神经 元 。 神 经 元 有 两 组 输入 。 第 一 
组 是 恒定 的 外 部 输入 ， 用 电流 Da. D. vee 表示 。 第 二 组 来 自 其 他 运算 放大 器 的 反馈 连接 。 
例如 ， 第 2 个 输出 a, 反馈 到 电阻 Rs 2: 上， 而 它 又 连 到 放大 器 S 的 输入 上 。 电 阻 只 能 是 正 
的 ， 但 可 通过 使 某 个 放大 器 的 输出 反 相 而 使 一 个 神经 元 获得 负 的 输入 。( 在 图 18-1 中 ， 第 一 
个 放大 器 倒 向 的 输出 通过 电阻 Rz,: 连 到 第 二 个 放大 器 的 输入 上 。) 

从 Kirchhoff 的 电流 定律 可 推导 出 Hopfield 模型 的 运算 方程 


c W - Xn, sco - =E I; (18.1) 


AF n; 表示 第 i 个 放大 最 的 办 人 电压 a; 是 第 ; 个 放大 器 的 输出 FIR, C 表示 放大 器 的 输入 
电容 ，1; 是 第 ; 个 放大 器 的 固定 输入 电流 。 同 时 有 : 


| T;, lego il.» zo n; = f^ (aj) G aj = f(n;)) (18.2) 
7(m) 是 放大 器 的 特性 函数 。 在 此 处 和 下 文中 我 们 将 假设 电路 是 对 称 的 ， 因 此 Ti， Tio 

放大 器 的 传输 函数 a = f(n;) 通 常 是 一 个 STE BS. S 形 函 数 及 其 反 画 数 我 们 都 假设 为 
增 函 数 。 在 本 章 稍 后 ， 我 们 将 给 一 个 合适 的 传输 函数 。 


在 方程 (18.1) 两 边 乘 以 及 ， 可 得 到 
RC TOD - Man, a(t) — n) + Ril, (18.3) 


这 可 以 转化 为 标准 的 神经 网 络 表示 法 ， “如 果 定 义 
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€e = R;C, Wi. = RiTi,; All b, = Rl; (18.4) 

现在 (18.3) 式 可 改写 为 
da zo) + 2j wi a;i) + b (18.5) 

写成 向 量 形式 就 是 
e U) =- nlt) + Walt) +b (18.6) 


a(t) = f(n(:1)) (18.7) 
相应 的 Hopfield 神经 网 络 显示 在 图 18-2 中 。 





n(0) = fi(p)，(a(O) =p) €dn/dt= -n + Wf(n) +b 


图 18-2 Hopfield 网 络 


因此 ，Hopfield 的 起 初 的 S 型 运算 放大 器 电路 可 方便 地 用 标准 神经 网 络 表示 法 表示 。 注 
意 输入 向 量 p 决定 着 网 络 的 初始 输出 。 正 如 本 章 最 后 将 要 讨论 的 那样 ， 这 种 形式 的 Hopfield 
网 络 可 用 来 作 联想 存储 器 网 络 。 


18.2.2 Lyapunov 函数 


用 Lyapunov 稳定 性 定理 分 析 递 归 网 络 是 Hopfield 的 一 个 主要 贡献 。(Cohen 和 Grossberg 
同期 也 用 Lyapunov 原理 来 分 析 竞 争 性 的 网 络 [CoGr83])。 在 这 一 节 ， 我们 将 演示 如 何在 
Hopfield 网 络 中 使 用 第 17 章 提 出 的 LaSalle 不 变性 定理 。 用 LaSalle 定理 的 第 一 步 是 选择 一 个 
Lyapunov 函数 。Hopfield 建议 采用 下 面 的 函数 ; 

V(a) =- larwa + D || f G0du]- bra (18.8) 

Hopfield 选 择 这 个 特殊 的 Lyapunov 的 函数 也 是 他 的 主要 贡献 之 一 。 注 意 第 一 和 第 三 项 组 成 

了 一 个 二 次 函数 。 在 本 章 后 面 有 一 节 ， 将 用 先前 关于 二 次 函数 的 结果 来 分 析 这 个 Lyapunov 
KOC 

为 了 使 用 LaSalle 定理 ， 我 们 将 需要 估计 V (a) 的 导数 。 为 清晰 起 见 ， 我 们 分 别 考虑 


V (a) 的 三 项 。 用 等 式 (8.37)， 第 一 项 的 导数 为 
da 


dt dt dt 
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402 FEE II AS IE tf 








V(a) ie 由 积分 和 组 成 。 如 果 分 别 考虑 每 一 项 积分 ， 我 们 司 以 得 到 


id ain DL EE da, 过 化 DIES =f ai) Ge = "e 
这 样 V(a) 中 第 二 项 的 总 导数 就 可 以 表示 为 
af x fero] =n? da 
由 式 (8.36)， 我 们 可 得 到 Y(a) 第 三 项 的 导数 
di- bral = - Y[bra]798 = - b7 9 
因此 V (a) 的 总 导数 可 改写 为 
da 


dLv(a)  - a'WÓ? an? qe- pr 09 = [- aTW +n" -blg 


di d 
由 式 (18.6)， 我 们 知道 


T 
[- a7W 4 n? - b7] - - [222] 


因此 式 (18.13) 又 可 写作 





d dn(:) Š dn; da; 
a (9 = - ¢ ant E = -eX "a i) 
因为 n; = f^ (a), WA n; 的 导数 可 展开 成 ， 

dn, 


dr = ipe (a) = ipa] 
现在 式 (18.15) 可 重 写 为 
aO =- A ($8) - - (atn (o1) (SE) 
如 果 六 -1(oi) 是 一 个 增 函 数 ， 对 每 个 运算 放大 器 来 说 有 
igi fai] > 0 
Fash (18.17), 可 得 
ov (a) <0 


(18.10) 


(18.11) 


(18.12) 


(18.13) 


(18.14) 


(18.15) 


(18.16) 


(18.17) 


(18.18) 


(18.19) 


AUR 广 !(ei) 是 增 函 数 的 话 ， 那 么 dV(a)/dt 是 一 个 半 负 定 函 数 。 所 以 了 (a) 是 一 个 有 效 的 


Lyapunov PX. 
1. RER 


现在 我 们 用 LaSalle 的 不 变性 定理 来 求 Hopfield 网 络 的 平衡 点 。 第 一 步 先 求 集合 Z( 式 


(17.19)): 
Z= la:dV(a)/dt = 0, a 属于 6 Ea 


这 个 集合 包含 了 Lyapunov 函数 所 有 导数 为 0 的 点 。 现 在 假设 CER KHER, 


从 式 (18.17) 可 知 ， 如 果 每 个 神经 元 输出 的 导数 值 为 零 ， 则 这 样 的 导数 为 零 。 


da _ 
di = 


(18.20) 


(18.21) 
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当 输 出 的 导数 值 为 0 时 ， 电 路 处 于 平衡 状态 。 因 此 ， 这 些 系统 "能量 "不 再 变化 的 点 也 就 是 电 
路 的 平衡 点 。 
这 就 意味 着 Z 中 最 大 的 不 变 集 合 L， 恰 恰 就 是 集合 Z: 
L-2Z (18.22) 
因此 ，Z 中 所 有 点 都 是 潜在 的 吸引 子 。 
其 他 的 一 些 特征 我 们 在 下 面 例 子 中 解释 。 


2. 实例 
下 面 这 个 例子 选 自 Hopfield 的 论文 [ Hopfg4]。 我 们 考虑 有 这 样 一 个 放大 器 特性 的 系统 : 
a = f(n) = 2 iant 252) (18.23) 
这 个 式 子 又 可 写作 
= 2. tan( $a] (18.24) 
假设 有 两 个 放大 器 ， 其 中 一 个 的 输出 通过 电阻 单元 连 人 另 一 个 放大 器 的 输入 ， 因 此 
Rio = Roy = 1, Th. = To. = 1 (18.25) 
所 以 我 们 有 加 权 和 矩阵 
0 1 
W = 1 ‘| (18.26) 
如 果 放 大 器 的 输入 电容 也 设置 为 1， 我 们 有 
c= RC = (18.27) 
BI y= 1.4 且 = 1,20, 因此 
0 
b = [°] (18.28) 
回忆 等 式 (18.8) ，Lyapunorv 函数 为 
s l'a. 
V(a) =- 二 arWa + >) (road- bra (18.29) 
对 于 本 例 ，Lyapunov 函数 的 第 一 项 为 
-地 a Wa =- 51a, z IM 三 一 041025 (18.30) 
第 三 项 是 0， 因 为 b 为 0。 第 二 项 的 第 i 部 分 为 
2 fs 2 x |y 2]^ 
N l(u)du = a tan( 至 zj du = 2| - lod cos( ml 2) (18.31) 
此 式 可 简化 为 
MEIST =- -log cos Za) (18.32) 


最 后 ， 把 所 有 三 项 都 代 人 式 (18.29)， 我 们 有 Lypunov 函数 : 


V(a) =- aja - ta tees) e log{ cos( Æ a2) y (18.33) 
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现在 可 以 写 出 网 络 的 方程 ( 式 (18.6))。 设 s=1 且 8=0， 即 为 


n+ Wn) =-n+Wa (18.34) 


如 果 代入 式 (18.26) 的 加 权 和 矩阵 ， 这 个 表达 式 又 可 写 为 下 面 两 个 方程 : 





dni/dt = CQ2 — ny (18.35) 
dnz/dt = a; - ny (18.36) 
神经 元 的 输出 为 
a, = 全 anrl( mi (18.37) 
a = Zusc (E51) (18.38) 


至 此 我 们 已 找到 Lyapunov 函数 的 表达 式 和 网 络 的 运算 方程 。 让 我 们 看 看 网 络 的 特性 。Lya- 
punov 函数 图 和 样本 轨迹 如 图 18-3 所 示 。 














18-9 图 18-3 Hopfield 实例 的 Lyapunov 函数 和 轨迹 
图 中 的 轮廓 线 表示 Lyapunov 函数 的 常数 值 。 系 统 有 两 个 吸引 子 ， 一 个 在 图 中 的 左下 方 ， 


另 一 个 在 右上 方 。 系 统 从 左上 方 开始 收敛 于 左下 方 的 稳定 点 ， 如 粗 绕 所 示 。 
图 18-4 显示 了 两 个 神经 元 输出 的 时 间 响 应 曲线 。 














图 18-4 Hopfield 实例 的 时 间 响 应 图 
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图 18-5 显示 了 Lyapunov 函数 的 时 间 响 应 。 像 预料 那样 ， 它 逐渐 下 降 趋 于 平衡 点 。 


2—— — -一 一 -一 

















图 18-5 Lyapunov 函数 响应 图 


系统 在 原点 还 有 一 个 平衡 点 。 如 果 把 网 络 初始 化 在 任何 从 左上 角 到 右 下 角 的 对 角 线 上 ， 
则 解 收敛 于 原点 。 但 是 ， 如 果 任何 初始 条 件 不 落 在 这 条 对 角 线 上 ， 最 终 将 收敛 到 左下 角 或 右 
上 角 的 解 。 在 原点 的 解 是 Lyapunov 函数 的 一 个 鞍点 ， 不 是 局 部 极 小 值 。 这 个 问题 在 下 一 小 [开本 
节 讨论 。 图 18-6 显示 了 收敛 于 鞍点 的 轨迹 。 











图 18-6 Hopfield 网 络 收敛 于 鞍点 的 情形 


试验 Hopfield 网 络 请 用 Neural Network Design Demonstration Hopfield Network 
(nnd18hn) 





这 个 例子 给 我 们 提供 了 一 些 Hopfield 网 络 吸引 子 的 情况 。 在 下 一 人 小节， 我 们 将 做 进一步 
分 析 。 

3. Hopfield 网 络 吸引 子 

在 前 一 小 节 的 例子 中 ， 我 们 发 现 Hopfield 网 络 的 吸引 子 是 Lyapunov 函数 的 稳定 点 。 现 
在 我 们 要 证 明 在 一 般 情形 下 也 是 如 此 。 回 忆 式 (18.21) Hopfield 网 络 的 潜在 吸引 子 应 满足 


= (18.39) 
这 些 点 与 Lyapunov 函数 的 极 小 值 有 什么 关系 ? 在 第 8 章 ( 式 (8.27)) 中 ， 我 们 知道 一 个 函数 


406 FP LE PS 1 tf 





的 极 小 值 一 定 是 稳定 点 (梯度 为 0)。V(a) 的 稳定 点 应 满足 








vy - [24 Ep av)" -。 (18.40) 
其 中 
V(a) = - JarWa + M {fir !(u) )du]- b Ta (18.41) 
仿照 推导 式 (18.13) 的 过 程 ， 可 得 (a) 梯度 的 表达 式 
IV(a) = [- Waen- b] =~ e| $9C2] (18.42) 
因此 梯度 的 第 i 个 元 素 为 
Z vla) == ee Lp a) =- fired] Gt (18.43) 
附带 说 一 下 ， MR 广 !(a) 是 线性 的 ， 式 (18.43) 意 味 着 
da = - aVV(a) (18.44) 


因此 ，Hopfield 网 络 的 响应 是 沿 着 最 陡 的 方向 下 降 的 。 这 样 ， 如 果 在 广 :(a) 一 个 近似 线性 
的 区 域内 ， 网 络 的 解 也 就 近似 地 沿 最 陡 方 向 下 降 。 
我 们 已 经 假设 传输 函数 和 它 的 反 函 数 是 单调 增 函 数 。 因 此 ， 


La] >0 (18.45) 
由 式 (18.43)， 满 足 
dat) -0 (18.46) 
的 点 也 是 满足 
VV(a) = 0 (18.47) 
的 点 。 


因此 ， 作 为 集合 L 中 的 元 素 且 满足 式 (18.39) 的 吸引 子 也 是 Lyapunov 函数 V (a) 的 稳定 
点 。 
18.2.3 增益 效应 

如 果 我 们 考虑 放大 器 的 增益 系数 Y 非常 大 的 情况 ， 那 么 Hopfield Lyapunov 函数 就 可 被 
简化 。 回 忆 前 面 例子 中 的 非 线性 放大 器 的 特性 

a = f(n) = 2 tan! 2") (18.48) 

图 18-7 显示 了 这 个 函数 对 于 四 种 不 同 增益 系数 的 曲线 。 

增益 系数 y 决定 了 曲线 在 n =0 处 的 陡 度 。 随 着 y 的 增 大 ， 曲 线 在 原点 的 斜率 增 大 。 当 


Y 无 限 增 大 时 ，f(n) 接 近 于 正 负 号 函数 。 
由 式 (18.8)， 一 般 的 Lyapunov 函数 是 


V (a) =- -Jarway D {| Cudu} - bra (18.49) 
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图 18-7 反正 切 放 大 器 特性 
对 前 面 那个 例子 ， | 
fF) = Z tan( 5) (18.50) 


Ak, Lyapunov 函数 的 第 二 项 便 有 如 下 形式 : 


a 2/2 TQ; 4 Ta; 
hy l(u)du = 2| 2 (cox(*)) | =- ye log] cos( 22) (18.51) 
高 增益 Lyapunov 函数 图 18-8 显示 了 三 个 不 同 增益 系数 的 函数 图 形 。 注 意 ， 当 y 增 大 
时 ， 函 数 变 得 平坦 并 且 在 大 部 分 地 方 都 趋 于 0。 因 此 ， 当 增益 系数 y 无 限 增 次 时 ,在 -1< 
Qi< 1 范围 内 ，Lyapunov 函数 的 第 二 项 趋 于 0。 所 以 我 们 可 以 消去 这 一 项 ， 高 增益 Lyapunov 


函数 便 退 化 为 . 
V (a) = -二 arWa - b'a (18.52) 











图 18-8 Lyapunov 函数 的 第 二 项 


比较 式 (18.52) 和 (8.35)， 我 们 不 难 发 现 高 增益 的 Lyapunov 函数 实际 上 就 是 一 个 二 次 函数 : 
V (a) =- JaWa- b'a = La"Aa + d'a + € (18.53) 


其 中 
V?y(a) = A=-W,d=-b,c = 0 (18.54) 
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这 是 一 个 重要 的 发 展 ， 因 为 现在 我 可 以 用 第 8 章 关 于 二 次 函数 的 结论 来 理解 Hopfield 网 络 的 
运算 。 

回忆 二 次 函数 的 曲面 形状 由 它 的 赫 森 和 矩阵 的 特征 值 和 特征 向 量 决 定 。 对 我 们 这 个 例子 来 
Bi, Lyapunov 函数 的 赫 森 矩阵 是 


V2y(a) 2-W- | 7 n (18.55) 
MEAE EE PEATE OO : 
. loa L 
IVY (a) - XI| = | : MEE = (A+ D(A- 1) (18.56) 


fei] 因而 ， 特 征 值 是 A = -1 和 X=1。 与 之 对 应 的 特征 向 量 是 
1 1 
s -| | 和 a-| | (18.57) 


高 增益 Lyapunov 函数 的 曲面 形状 是 什么 样子 呢 ? 我 们 知道 这 个 替 森 矩阵 有 一 个 正 的 和 
一 个 负 的 特征 值 ， 那 么 它 满足 鞍点 条 件 。 表 面 将 会 有 一 个 沿 着 第 一 个 特征 向 量 的 负 曲 率 和 沿 
着 第 二 个 特征 向 量 的 正 曲 率 。 曲 面 如 图 18-9 所 示 。 











图 18-9 高 增益 Lyapunov 函数 的 例子 


这 个 函数 没有 极 小 值 。 但 由 于 网 络 被 放大 器 的 传输 函数 限制 在 超 立 方 体 ia; -1< a; «1l 
内 ， 因 此 ， 在 超 立 方 体 


i -1 
a=| | 和 a -| -| (18.58) 


的 两 个 角 上 被 限制 为 极 小 值 。 当 增益 很 小 时 ， 在 原点 有 一 个 惟一 的 极 小 值 (见习 题 18.1)。 
随 着 增益 的 增加 ， 两 个 极 小 值 从 原点 移 向 由 式 (18.58) 给 出 的 两 角 。 图 18-3 显示 了 一 种 中 间 
情况 ， 它 的 增益 系数 y 为 1.4， 图 中 极 小 值 出 现在 


0.57 - 0.57 
TI 和 a= [Os (18.59) 


通常 情况 下 ， 网 络 中 不 止 有 两 个 神经 元 ， 高 增益 的 极 小 值 将 落 人 超 立 方 体 ja; -1< a< 
Leis] 1 的 某 个 角 。 在 描述 完 Hopfield 网 络 设计 过 程 后 ， 我 们 将 后 面 几 节 更 具体 地 讨论 一 般 情 形 。 
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18.2.4 Hopfield 网 络 设计 


Hopfield 网 络 没有 与 之 相关 的 学 习 规 则 。 它 不 被 训练 ， 也 不 会 自己 学 习 。 它 是 用 基于 
Lyapunov 函数 的 设计 过 程 来 确定 权 值 矩 阵 。 
再 次 考虑 高 增益 的 Lyapunov 函数 


V(a) =- 地 a Wa - b/a (18.60) 


Hopfield 网 络 设计 技术 的 关键 在 于 选择 权 值 矩阵 W 和 偏 置 向 量 b 以 便 使 V 能 得 到 想 要 的 最 
小 化 函数 形式 。 把 需要 求解 的 任何 问题 转化 为 二 次 函数 的 极 小 化 问题 。 既 然 Hopfield 网 络 可 
以 用 来 最 小 化 了， 那么 也 就 可 以 解决 原来 的 问题 。 自 然 ， 技 巧 在 于 转换 ， 一 般 来 说 ， 这 种 
转换 并 不 是 直接 的 。 
1. 按 内 容 寻 址 存储 器 
按 内 容 寻 址 存储 器 ”在 这 一 小 节 ， 我 们 将 描述 如 何 用 Hopfield 网 络 来 设计 联想 存储 器 。 
我 们 将 设计 的 联想 存储 器 也 称 为 按 内 容 寻 址 的 存储 器 ， 因 为 它 能 够 按照 所 存储 内 容 的 一 部 分 
来 检索 数据 。 这 种 存储 器 同 标准 的 计算 机 存储 器 形成 对 比 ， 后 者 是 按照 存储 地 址 来 寻找 数据 
的 。 举 个 例子 ， 假 设 我 们 有 一 个 按 内 容 寻 址 的 数据 库 ， 它 包含 雇员 的 姓名 、 地 址 、 电 话 号 
码 。 我 们 能 够 通过 只 提供 雇员 的 名 字 ( 或 部 分 名 字 ) 来 得 到 一 个 完整 的 数据 单元 。 按 内 容 寻 址 
存储 器 就 像 第 7 章 所 描述 的 自 联想 存储 器 一 样 有 效 (参见 7.2.4 节 )， 只 不 过 在 这 一 章 我 们 将 
使 用 递归 Hopfield 网 络 而 不 是 线性 联想 器 。 
假设 我 们 要 在 Hopfield 网 络 中 存储 一 组 原型 模式 。 当 向 网 络 输入 一 个 模式 对 ， 网 络 会 产 
生 一 个 与 输入 模式 最 相似 的 存储 模式 。 对 输入 模式 指定 一 个 初始 网 络 输 出 。 网 络 最 终 输 出 应 
收敛 于 与 输入 模式 最 接近 的 原型 模式 。 要 这 种 情形 发 生 ， 原 型 模式 必须 是 Lyspunov 函数 的 
极 小 值 。 
假设 原型 模式 为 
{Pi P2» + Po! (18.61) 
每 一 个 向 量 由 5 ERAR, BREN 1 或 -1。 假设 0 << 3$S， 那 么 状态 空间 就 很 大 且 
原型 模式 在 状态 空间 中 均匀 分 布 ， 彼 此 不 接近 。 
为 了 使 Hopfield 网 络 能 够 回忆 起 原型 模式 ， 这 些 模式 必须 是 Lyapunov 函数 的 极 小 值 。 
既然 高 增益 的 Lyapunov 函数 是 二 次 函数， 我们 需要 使 原型 模式 成 为 一 个 合适 二 次 函数 
的 限制 极 小 值 。 我 们 建议 使 用 下 面 的 二 次 性 能 指数 : 
Ja) =-+ - 1M», ] 7a)? (18.62) 
如 果 向 量 a 的 元 素 被 限制 为 + 1, RINE E A EE REAREN, 
假设 原型 模式 是 正 交 的 。 我 们 计算 一 个 原型 模式 的 性 能 指数 : 
Kp) 2-3 ; pp) = -ipp:-- i (18.63) 
式 中 的 第 一 个 等 号 是 由 于 原型 模式 的 正 交 性 。 最 后 一 个 等 号 是 由 于 p 的 全 部 元 素 为 + 1。 


下 面 计算 一 个 随机 输入 模式 a 的 性 能 指数 。 我 们 假定 输入 模式 与 任何 原型 模式 都 不 相 
似 。 式 (18.62) 中 每 一 项 都 是 一 个 原型 模式 与 输入 模式 的 内 积 。 输 入 模式 与 原型 模式 越 接近 ， 
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则 内 积 越 大 ; RZ, We). AM, 4a 不 接近 原型 模式 时 ，J(a) 将 是 最 大 的 (最 小 负 值 ); 
反之 ，J(a) 将 是 最 小 的 (最 大 负 值 )。 

我 们 已 经 找到 了 一 个 能 够 精确 指示 按 内 容 寻 址 存储 器 性 能 的 二 次 函数 。 下 一 步 就 是 选择 
权 值 矩阵 W 和 偏 置 值 b， 这 样 就 能 使 Hopfield Lyapunov 函数 V 等 价 于 二 次 性 能 指数 /。 

如 果 我 们 用 有 监督 的 Hebb 规则 来 计算 权 值 矩阵 (用 输入 模式 作 目 标 模 式 )， 便 得 








W = > p, (p,)7 (18.64) 
并 设置 偏 置 什 
b=0 (18.65) 
这 样 Lyapunov AAA 
Via) = - 方 P?) - -- lY p 7a (18.66) 
上 式 又 可 写 为 


V(a) =-+ LX, )7a] ”= J(a) (18.67) 


AH, Lyapunov ALARA ERK 次 性 能 指数 。Hopfield 网 络 的 输出 通常 
都 会 收敛 于 存储 的 原型 模式 (我 们 在 后 文 讨论 其 他 可 能 的 收敛 点 )。 

如 第 7 章 指出 的 那样 ， 有 监督 的 Hebb 规则 在 原型 模式 之 间 存 在 明显 相关 的 情况 下 效果 
并 不 好 。 在 这 种 情况 下 ， 可 采用 仿 首 函数 技术 。 另 一 种 设计 技术 超出 本 书 的 范围 ， 可 参考 
[ LiMi89]. 

在 最 好 的 情况 下 ， 原 型 模式 是 正 交 的 ， 每 一 个 原型 模式 都 是 网 络 的 一 个 平衡 点 。 但 是 ， 
仍 有 可 能 存在 很 多 其 他 平衡 点 。 这 样 ， 网 络 就 可 能 收银 于 一 个 不 是 原型 模式 的 平衡 点 。 通 常 
在 使 用 Hebb 规则 时 ， 存 储 模式 的 数目 不 能 超过 神经 元 数目 的 15% 。 参 考 书目 [ LiMi89] 讨 论 
了 更 复杂 的 设计 过 程 ， 这 种 过 程 可 使 假 平衡 点 数目 达到 最 小 。 

下 一 小 节 ， 我 们 将 进一步 分 析 平 衡 点 的 位 置 。 

2. Hebb 规则 

让 我 们 近 一 步 看 一 看 当 Hebb 规则 用 来 计算 权 值 矩 阵 并 且 原 型 模式 是 正 交 的 情况 下 ， 
Hopfield 网 络 如 何 运算 。( 下 面 的 分 析 接 着 第 7 EDER P7.5 的 讨论 )。 有 监督 的 Hebb 规则 为 





W = > py) (18.68) 
如 果 把 原型 向 量 p, 用 于 网 络 中 ， 那 么 有 
w = Èp , (B, "p; = pi(p/) pi = Sp, (18.69) 


其 中 第 二 个 等 式 成 立 是 因为 原型 模式 是 正 交 的 ， 第 三 个 等 式 成 立 是 由 于 p, 的 每 个 元 素 不 是 
1 就 是 - 1。 等 式 (18.69) 有 如 下 形式 : 

Wp, = Ap, (18.70) 
因此 ， 每 个 原型 向 量 等 是 权 值 矩阵 的 特征 向 量 且 它们 有 共同 的 特征 值 X= $。 特 征 值 和 = S 
的 特征 向 量 空间 夸 为 


X = spanipi, p," po! (18.71) 
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这 个 空间 包含 所 有 能 写成 原型 向 量 线性 组 合 的 向 量 。 这 就 是 说 ， 一 个 向 量 a 只 要 是 原型 向 量 
的 线性 组 合 就 是 特征 向 量 。 
Wa= Wiap, + op, + … + aopo| 
= ja,Wp, + Wp, + © + ao Wpo| (18.72) 
= la Sp, + Sp, + … + oS pol 
= Slap, + op, +…+aopol = Sa 
特征 值 X= S 的 特征 向 量 空间 是 一 个 Q 维 的 空间 (假定 原型 向 量 线性 无 关 )。 
EARS 空间 可 分 解 为 两 个 不 相交 的 集合 [ Brog85 |, 
HS = XU X+ (18.73) 
其 中 X+ 是 的 正 交 补 集 。( 这 对 任何 集合 下 都 成 立 ， 不 仅 包括 此 处 我 们 所 考虑 的 集合 。) 
X- 中 的 每 个 向 量 均 与 丰 中 每 一 个 向 量 正 交 。 这 就 是 说 对 于 任何 向 量 a€ X-, 
(p)/a20, g = ,2,7,09 (18.74) 


因此 ， 如 果 ac Xt, 
Wa = X», (p, )fa = Xo, “0 (18.75) 


所 以 ?YL 定义 了 重 特 征 值 入 = 0 的 一 个 特征 向 量 空间 。 

概括 起 来 ， 权 值 矩阵 有 两 个 特征 值 ，$ 和 0。 特 征 值 S 的 特征 向 量 空间 是 由 原型 向 量 所 
决定 的 。 特 征 值 0 的 特征 向 量 空间 是 原型 向 量 所 生成 的 空间 的 正 交 补 集 。 

既然 高 增益 的 Lyapunov 函数 的 赫 森 矩阵 是 

V27 2-W (18.76) 
那么 YY 的 特征 值 就 是 - S 和 0。 

高 增益 的 Lyapunov 函数 是 一 个 二 次 函数 。 因 而 ， 赫 森 矩阵 的 特征 值 就 决定 了 它 的 形状 。 
因为 第 一 个 特征 值 是 负 值 ，y TE X 中 将 有 一 负 曲 率 。 又 由 于 第 二 个 特征 值 是 0， 了 在 下 中 
将 有 零 曲 率 。 

这 些 结果 对 Hopfield 网 络 的 响应 说 明了 什么 ”因为 V EX PARK, Hopfield 网 
络 的 轨迹 将 会 落 人 包含 在 了 中 的 超 立 方 体 |a: -1<a;< 1} WAL. 

注意 ， 如 果 我 们 用 Hebb 规则 计算 权 值 矩阵 ， 对 每 一 个 原型 向 量 来 说 ，Lvapunoy 函数 至 
少 有 两 个 极 小 值 。 如 果 p 是 个 原型 向 量 ， 那 么 - p, 将 也 在 由 原型 向 量 所 生成 的 空间 里 。 因 
此 ， 每 个 原型 向 量 的 负 值 将 是 包含 在 X 中 的 超 立 方 体 Las -1< ai<1| 的 一 个 角 。 除 此 之 
外 ， 还 有 一 些 不 与 原型 模式 对 应 的 Lyapunov 函数 的 极 小 值 。 

伪 模 式 v 的 极 小 值 在 包含 在 X 中 的 超 立 方 体 |a: -1< au< 了 的 角 上 。 这 些 不 仅 包含 
原型 模式 ， 而 且 也 包含 它们 的 某 些 线性 组 合 。 那 些 不 是 原型 模式 的 极 小 值 通常 称 为 伪 模 式 。 
Hopfield 网 络 设计 的 目标 就 是 使 伪 模 式 的 数目 减 到 最 小 并 把 每 一 个 原型 模式 的 吸引 区 尽 可 能 
地 扩大 。[ LiMi89] 中 描述 了 一 种 保证 达到 最 少 伪 模式 的 设计 方法 。 

为 了 解释 这 些 原理 ， 再 次 考虑 我 们 曾经 讨论 过 的 二 阶 矩 阵 的 例子 ， 在 这 个 例 芝 中 连接 手 阵 为 


w=? | : (18.77) 
1 0 


假设 用 Hebb 规则 设计 并 只 有 一 个 原型 模式 (显然 是 一 个 没有 实际 应 用 意义 的 例子 ) 
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p, = H (18.78) 
那么 
1 1 1 
w= pip)” - |! |i Jf | (18.79) 
0 1 
WzW-Ic- | | (18.80) 
1 0 
与 我 们 的 初始 连接 矩阵 对 应 。 详 细 情 况 见 下 一 小 节 。 
高 增益 的 Lyapunov 函数 是 
V(a) =- tawa =- Fa! ac (18.81) 
V (2) 的 赫 森 矩阵 是 
va) -ws |- MH (18.82) 
它 的 特征 值 为 
àj2-S$z-2 和 à = 0 (18.83) 
相应 的 特征 向 量 为 


vf] eal one 


与 特征 值 - S 对 应 的 第 一 个 特征 向 量 代表 着 由 原型 向 量 生成 的 空间 ; 


X= la: ai = az! (18.85) 
0821) 与 特征 值 0 对 应 的 第 二 个 特征 向 量 代表 第 一 个 特征 向 量 的 正 交 补 ; 


X= |a:a, =- a)! (18.86) 
Lyapunov 函数 如 图 18-10 所 示 。 i 


1 
0.5 
0 - 
-05 | 
4 0 0.5 1 


图 18-10 Lyapunov 函数 实例 


xk EUR — Ze EfS SE FAKEN. RRA X+ 曲 率 为 0 的 区 域 。 初 始 条 件 是 
凸 起 的 左边 还 是 右边 决定 收敛 点 为 











| 或 a=|- | (18.87) 
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如 果 初 始 条 件 是 恰 在 凸 起 上 ， 那 么 网 络 就 会 稳定 在 开始 处 。 情 况 就 像 我 们 原来 的 例子 (参见 
图 18-9)， 只 不 过 在 那 种 情况 下 ， 在 斜 的 凸 起 上 的 初始 点 最 终 收敛 于 原点 ， 而 不 是 稳定 在 开 
始 的 地 方 (参见 图 18-6)。 无 论 初始 点 在 是 起 的 左边 或 右边 ， 在 两 个 系统 中 都 会 收敛 于 原型 
设计 点 。 因 此 ， 我 们 最 初 讨论 的 那个 系统 与 用 零 对 角 线 元 素 的 系统 在 每 一 个 重要 方面 其 收敛 
情况 是 一 致 的 。 在 下 一 小 节 ， 我 们 将 进一步 考察 这 一 点 。 . 

3. Lyapunov 曲面 ` 

在 Hopfield 网 络 的 很 多 讨论 中 ， 权 值 矩 阵 的 对 角 线 元 素 被 设 为 0。 在 这 -一 小 节 中 我 们 将 
分 析 这 样 的 运算 对 Lyapunov 曲面 的 影响 。( 可 参见 第 7 章 习 题 E7.5。) 

对 于 按 内 容 寻 址 的 存储 器 网 络 来 说 ， 所 有 的 权 值 矩阵 对 角 线 元 素 都 为 O (原型 模式 的 个 
XO, BUE p, 中 的 每 个 元 素 都 为 +* 1。 因 此 ， 我 们 可 以 通过 减 去 @ 与 单位 矩阵 的 乘积 把 对 角 
线 元 素 归 0: 

W -»W- QI (18.88) 
让 我 们 考查 一 下 这 种 变换 对 Lyapunov 函数 有 何 影 响 。 如 果 把 这 个 新 的 权 值 矩阵 乘 以 一 个 原 
型 向 量 ， 求 得 ` 
Wp, =[W- Q@I]p, = Sp, - Op, = (S - Q)p, (18.89) 
Auk, (S - 0) 是 W 的 特征 值 。 相 应 的 特征 向 量 空间 是 由 原型 向 量 所 生成 的 X. 
如 果 把 这 个 新 的 权 值 矩阵 乘 以 来 自 X 正 交 补 集 中 的 向 量 a(aE XL), RA 
Wa = [W- ỌI]a = 0- Qa =- Qa (18.90) 
因此 ，- 0 是 W 的 特征 值 ， 相 应 的 特征 向 量 空间 是 Xt, . 

概括 起 来 说 ，W 中 的 特征 向 量 和 W 中 的 特征 向 量 是 一 样 的 ， 不 同 的 是 W 的 特征 值 为 
(S-Q)M-0, MARES 和 0。 因 此 ， 修 改 后 的 Lyapunov 函数 VV (a) = - WHA 
的 特征 值 为 -(S- CO) 和 10。 

这 就 暗示 着 能 量 曲面 在 X PANKARTA X AERAR, ARA Lyapunov K% 
形成 对 照 ， 它 在 X 中 有 负 的 曲率 ， 在 X+ 中 曲率 为 0。 

比较 图 18-9 和 图 18-10， 可 以 发 现 把 权 值 矩阵 对 角 线 元 素 设 为 Xt Lyapunov 函数 的 影 
响 。 在 系统 性 能 方面 ， 这 种 改变 只 有 很 小 的 影响 。 如 果 把 Hopfield 网 络 的 初始 条 件 设 在 离开 
Ha = - 0, 的 任何 一 处 ， 在 两 种 情况 下 ， 网 络 的 输出 最 终 都 会 收敛 于 超 立 方 体 la: -1« 
a < Ti 的 一 个 角 上 ， 这 个 超 立 方 体 包含 两 个 点 a=[fl 1)’ Mas[-1 -1]”。 

如 果 初 始 条 件 恰好 落 在 直线 a, = - a 上 ， 且 使 用 权 值 矩 值 W， 那 么 网 络 的 输出 将 保持 
为 常数 。 如 果 初 始 条 件 怡 好 落 在 直线 a= - a. 上 ， 但 是 使 用 权 值 矩阵 W ， 那 么 网 络 的 输出 
收敛 到 在 原点 处 的 鞍点 上 (如 图 18-16 所 示 )。 既 然 网 络 的 输出 不 收敛 于 Lyapunov 函数 的 极 
小 值 ， 这 些 结果 就 没有 用 。 当 然 只 有 初始 条 件 恰好 落 在 直线 a-a 上， 网 络 才 可 能 收敛 
于 一 个 鞍点 ， 在 实际 上 这 几乎 是 不 可 能 的 。 


18.3 小 结 


Hopfield 模型 
md =—n(t)+ Wa(t) +b 


18-22) 


18-23 
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a(t) = f(n(1)) 
输入 递归 层 





n(0) =f (p), (a(0)=p) edn/d¢=-n+ Win) +b 


Lyapunov 函数 
V(a) = - la'Wa +> [| F uau} b/a 


dv (a) - D (agio) (i) 


WRG Laid] > 0, MF Va) <0 


不 变 集 
不 变 集 由 平衡 点 组 成 ， 
L = Z= iada/dt = 0，a 属 于 6G 的 闭 包 } 


Hopfield 吸引 子 
平衡 点 是 静止 点 : 
如 果 dac =- 0， 则 YY(a) = 0 


dn(t) 
dt 








VV(a) = [- Wa+n-b] =-e 


高 增益 的 Lyapunov 函数 
V(a) =- ar Wa - b/a 
VÓ7(a) =-W 
按 内 容 寻 址 存储 器 


We > p(p )7 和 b = 0 


能 量 曲 面 ( 正 交 原 型 模式 ) 
V?V(a) =- W 的 特征 向 量 是 : 
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a=- S, 对 应 特征 向 量 空间 XX = span {pi ,Pp2, Po! 
A= 0， 对 应 特征 向 量 空间 X 
(X+ 定义 为 ,对 任意 向 量 a € X+,(p,)7a = 0,g = 1,2,…,0) 


轨迹 ( 正 交 原 型 模式 ) 
因为 第 一 个 特征 值 是 负 的 ，V (a) 在 X PARAR., NAAR TRENO, Va 
了 ~ 中 有 0 曲率。 因为 V(a) 在 六 中 有 负 曲 率 ，Hopfield 网 络 的 轨迹 会 落 入 包含 在 X PHA 


立方 体 ia: -1<a<11 的 角 上 。 


18.4 例题 
P18.1 假设 有 二 进 制 原型 向 量 


1 1 
1 -1 
p = —~1 |’ P: = 1 


-1 -1 
(i) 定义 一 个 连续 型 的 Hopfield 网 络 ( 指 定 连接 权 值 ) 来 识别 这 些 模式 ， 使 用 Hebb ML 
pup 
Cii) 求 这 个 网 络 的 高 增益 Lyapunov RRMA Ree, HARE BETA? 
(iii) 假设 增益 很 大 ，Hopfield 网 络 的 平衡 点 是 什么 ? 
解 
(i) 首先 使 用 有 监督 的 Hebb 规则 ， 从 参考 向 量 中 计算 权 值 矩阵 。 
1 1 -1 -1 1 -1 1 -1 
1 1 -1 -1 -1 1 -1 1 
W = pi(p)7+Pp(p)7 = 1 -1 1 itli a21 1 -1 


化 简 得 


-2 0 02 
(ii) 由 式 (18.54) 高 增益 的 Lyapunov 函数 的 替 森 矩阵 是 权 值 矩阵 的 负 值 ; 
-2 0 0 -2 
0 -2 2 0 


0 2 -2 0 
2 0 0 -2 


原型 模式 是 正 交 的 ([p, ]7p, 2 0) ， 所 以 特征 值 为 N = - S2 -4 和 X=0。 对 应 N= -4 
的 特征 向 量 空 间 为 


V?y(a) = 


X = spanip, pa! 
对 应 Ap = 0 的 特征 空间 是 X 的 正 交 补 集 ; 
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天 上 = span 


其 中 我 们 选 了 两 个 既 垂 直 于 p, 又 垂直 于 p, 的 向 量 。 
(ui) 稳定 点 分 别 是 py ，p,，- pi,，- 记 ， 因 为 原型 模式 的 负 值 也 是 平衡 点 。 也 可 能 还 
有 其 他 平衡 点 ， 如 果 超 立方 体 其 他 的 角 span 1p|，p, | 中 。 超 立方 体 总 共有 2 = 16 个 角 ， 四 
个 角落 入 X 中 ， 四 个 角落 人 X+ 中 ， 其 他 的 角 部 分 在 X 中 部 分 在 X+ 中 。 
P18.2 考虑 一 个 具有 如 下 权 值 矩阵 和 偏 置 值 的 高 增益 Hopfield 网 络 ; 
-1 1 
a) mc] 
Cio 描绘 这 个 网 络 的 高 增益 Lyapunov ARH RA 
( 广 》 如 果 网 络 的 初始 条 件 为 [1 1]7， 网 络 将 收 伍 于 何 处 ? 
解 
(i) 首先 考虑 高 增益 的 Lyapunov 函数 


V(a) =- 二 arWa ~b’a 


| 
= 
一 | 


MEER 
V?V(a) =-We $ | 
下 一 步 ， 我 们 需要 计算 特征 值 和 特征 向 量 ; 


verw -a [77 EN 


zA-2A4-1-12AA-2) 





特征 值 为 Xi 20 My 22, 
现在 来 求 特征 向 量 。 对 于 和 = 0， 
[V?V(a) 一 AI]z = 0 


因而 

[dee n ee [A] 
38, XT. =2, 

[V?V(a) -AI]z = 0 

因而 

-1 1 1 

l "a=° 或 a= [i 
所 以 项 


i r 
- 7a Wa 


在 zi 方向 上 曲率 为 0, 在 五 方向 上 曲率 为 负 。 
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现在 来 说 明 线性 项 。 首 先 画 出 没有 线性 项 的 轮廓 图 ， 如 图 18-11 所 示 。 














图 18-11 没有 线性 项 的 轮廓 图 


1 
-| "| 
上 引起 一 个 负 的 斜率 。 因 而 所 有 的 地 方 都 会 向 [1 -1]7 ah, wA 18-12 所 示 。 [18-28] 


1 


线性 项 会 在 方向 














图 18-12 包含 线性 项 的 轮廓 图 


(ii) 不论 初 使 条 件 如 何 ， 所 有 的 轨迹 都 会 收敛 于 [1 - 1]7。 在 图 18-12 中 我 们 可 以 看 
出 能 量 函 数 仅 有 一 个 极 小 值 点 ， 它 位 于 [1 - 1]7 处 。( 记 住 网 络 的 输出 被 限制 在 超 立 方 体 


ia; -1«a; « IPIS) 
P18.3 考虑 下 面 的 原型 向 量 ; 


1 -1 
THE pm -| | 
(i) 设计 一 个 Hopfield 网 络 来 识别 这 两 个 模式 。 
(ii) 求 高 增益 的 Lyapunov 函数 的 替 森 和 矩阵 。 它 的 特征 值 和 特征 向 量 是 什么 ? 


(iii) Hopfield 网 络 的 稳定 点 是 什么 (假定 网 络 具 有 很 大 的 增益 )? 吸引 区 是 什么 ? 
Civ) 网 络 对 模式 识别 的 效果 如 何 ? 
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解 
Ci) 我 们 使 用 Hebb 规则 来 求 权 值 和 矩阵; 
1 1 1 -1 2 0 
W= n(p)' + pales)” = | dl 1 B | 


偏 置 值 设置 为 0: 
0 
b- lo] 


(ii) 高 增益 的 Lyapunov PHA AY moa EA (BE 0 (8 : 


; 7 _[-2 "| 
vy =-w=| >, 23 


赁 观察， 知道 有 重 特征 值 


特征 向 量 为 


s[i] nee 


或 者 任意 线性 组 合 。( 整 个 Rt? 就 是 特征 值 X= - 2 的 特征 向 量 空间 。) 
(iii) 在 第 8 章 我 们 知道 当 赫 森 和 矩阵 的 特性 值 相等 时 ， 轮 廊 线 将 是 环形 的 。 因 为 特征 值 
为 负 ， 所 以 函数 将 在 原点 有 惟一 的 一 个 极 大 值 。. 在 超 立 方 体 ja: -1< a<11 的 四 个 角 上 有 
[18-30] 4 个 极 小 值 。 高 增益 的 Lyapunov 函数 如 图 18-13 示 。 











图 18-13 ”例题 P18.3 的 高 增益 Lyapunov 函数 


总 共有 9 个 静止 点 。 我 们 可 用 LaSalle 不 变性 定理 的 推论 来 证 明 原 点 处 的 极 大 值 吸引 区 
只 包含 原点 自己 。 因 此 它 不 是 一 个 稳定 的 平衡 点 。 鞍 点 的 吸引 区 为 直线 。( 例 如 ,在 
[-1 0]7 处 的 鞍点 吸引 区 为 el 的 负 轴 线 。) 超 立方 体 的 4 个 角 是 仅 有 二 维 吸 引 区 的 吸引 子 。 
每 一 个 角 的 吸引 区 是 超 立 方 体 的 相应 象限 。 图 18-14 显示 了 低 增 益 的 Lyspunov 函数 (增益 系 
数 Y=1.4) 并 说 明 收敛 到 一 个 鞍点 和 一 个 极 小 值 的 情况 。 
(iv) 网 络 在 模式 识别 这 个 问题 上 做 得 并 不 十 分 好 。 它 不 仅 识别 两 个 原型 模式 ， 也 “ 识 
nau] 别 " 出 超 立 方 体 的 其 他 两 个 角 。 网 络 将 会 收敛 到 距 输入 模式 最 近 的 一 个 角 ， 尽 管 我 们 只 想 让 
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图 18-14 例题 P18.3 的 Lyapunov PC 


它 存储 两 个 原型 模式 。 因 为 每 一 种 可 能 的 两 位 模式 都 被 存储 了 ， 所 以 网 络 并 非 十 分 有 用 。 这 
是 我 们 不 希望 出 现 的 ， 因 为 根据 Hebb 规则 ， 期 望 的 存储 模式 只 是 神经 元 数目 的 1596. BER 
我 们 只 有 两 个 神经 元 ， 所 以 不 希望 存储 许多 模式 。 习 题 E18.2 提供 了 一 个 更 好 的 网 络 。 

P18.4 一 个 Hopfield 网 络 具有 下 面 的 高 增益 Lyapunov 函数 : 

V(a) =- Ala) + 12ajaz - 2(a,X)) 

Ci) 求 权 值 矩 阵 。 

(ii) 5K Lyapunov 函数 的 梯度 向 量 。 

(iii) R Lyapunov REKI AR EROR BE o 


(iv) HH Lyapunov 函数 的 轮廓 图 。 
(v) 画 出 Y(a) 在 初始 条 件 为 [0.25 0,.25]7 时 使 用 最 速 下 降 算法 所 经 过 的 路 径 。 


解 
(i) Y(a) 是 一 个 二 次 函数 ， 可 重 写成 


7 6 
V(a) =- iO 112248; - 2(a2)*) = - Larl | 


welt ^l 


Gi) 因为 Y(a) 是 一 个 二 次 函数 ， 我 们 可 用 式 (8.38) 来 求 梯 度 : 


因此 权 值 矩阵 是 


vro) --[. 5]. 
(iii) 由 式 (8.,39)， 苏 森 和 矩阵 为 
vy =- oe "i 


6 
(iv) 下 面 计算 特征 值 ; 
-7- 入 | 
-6 2- 入 


= 454-50 = (A+ 100(4 - 5) 





ove -a | 
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特征 值 为 11= - 10 #1 45 25. 
现在 求 特征 向 量 。 对 A, = - 10, 


[V?V(a) -ATz = 0 
因此 


类 似 地 ， 对 A525, 


|V?V(a) - XIlz =0 
因而 
-12 -6 1 
[| 


注意 ， 这 是 一 个 有 鞍点 的 例子 ， 因 为 1; <0< 2。 沿 着 五 HAH, WE n 曲率 为 正 。 
高 增益 的 Lyapunov 函数 图 见 图 18-15。 


E/T 
a | | 


v | 
05 N \ | 
A \ \ \ 
\ \\ 
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图 18-15 高 增益 Lyapunov 函数 和 最 速 下 降 轨迹 
-18-33 | (v) 最 速 下 降 路 径 沿 着 梯度 为 负 的 方向 并 与 轮廓 线 垂直 ， 就 像 在 第 9 章 所 见 到 的 一 样 。 
当 轨 迹 到 达 超 立方 体 的 边缘 时 ， 它 将 沿 着 边线 下 落 到 极 小 值 。 最 后 结果 见 图 18-15. 


高 增益 的 Lyapunov 函数 只 是 一 个 近似 ， 因 为 它 假设 有 无 限 大 的 增益 。 作 为 比较 ， 图 18- 
16 画 出 了 增益 系数 为 0.5 时 的 Lyapunov 函数 和 Hopfield 轨迹 。 


1 广 — 








05 


asl 











图 18-16 Lyapunov 函数 与 Hopfield 轨迹 
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P18.5 除了 作 按 内 容 寻 址 存储 器 外 ，Hopfield 网 络 还 用 在 其 他 应 用 中 。 其 一 是 用 于 模 数 
(A/D) 转 换 [ HoTa86]。 模 数 转换 器 的 功能 是 把 一 个 模拟 信号 y 转换 为 二 进 制 数 串 (0 和 1)。 
例如 ， 一 个 两 位 的 模 数 转换 器 能 把 模拟 信号 y 近似 为 

y= Saat = a, + 232 
其 中 a 和 a; 的 值 为 0 或 1。( 这 个 A/D 转换 器 把 模拟 信号 近似 在 0 到 3 的 范围 内 ， 分 辨 单 
位 为 1。) Tank 和 Hopfield 建议 采用 下 面 的 性 能 指数 来 进行 A/D 转换 : 
2 2 2 
J(a) = H y- 2j a2-| _ 4 2/2 - P aia, - 1) 


其 中 第 一 项 表示 A/D 转换 误差 ， 第 二 项 迫使 cl a, 取 值 为 0 或 1。 
证 明 这 个 性 能 指数 可 改写 为 Hopfield 网 络 的 Lyapunov 函数 ， 并 定义 适当 的 权 值 矩 阵 和 





偏 置 值 向 量 。 

解 

第 一 步 是 对 性 能 指数 的 项 进行 展开 : 

2 2 2 2 2 
E - > adn =y- 2y 2] ai20G-D 4 2j 2 ajgj20- D 07D 
| 3120-9 a. Ca _ » - > (atn - $) a2” 
如 果 把 这 些 项 代 回 到 性 能 指数 中 ， 求 出 
J(a) = H y+ > aatis * > a (C-D — 2iy) 
第 一 项 不 是 a 的 函数 ， 因 此 不 影响 极 小 值 出 现 的 位 置 ， 可 予以 忽略 。 
我 们 要 证 明 这 个 性 能 指数 采用 高 增益 的 Lyapunov 函数 形式 : 
V(a) =- la'Wa - bľa 
如 果 
1 
w.|? " 和 b= ad 
-2 0 ry -2 
即 为 所 求 。 

在 这 个 Hopfield 网 络 中 ， 不 像 按 内 容 寻 址 存储 器 ， 网 络 的 输入 是 标量 y， 它 被 用 来 计算 
偏 置 值 向 量 。 在 按 内 容 寻 址 存储 器 中 ， 网 络 的 输入 是 向 量 模 式 ， 它 成 为 网 络 输出 的 初始 条 
件 。 

注意 ,在 网 络 中 传输 函数 必须 把 输出 限制 在 0< a < 1 的 范围 内 。 一 个 可 使 用 的 传输 函 
数 是 | 

fo) = GT pny 


18.5 ”结束语 
本 章 我 们 介绍 了 Hopfield 模型 ， 这 是 一 种 最 有 影响 的 神经 网 络 结构 。Hopfield 之 所 以 有 
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重要 影响 的 一 个 原因 是 他 强调 网 络 的 实际 应 用 。 他 说 明 如 何 用 电路 的 形式 实现 网 络 。 在 早期 
曾 建 立 过 用 VLSI 实现 的 Hopfield 型 网 络 。 

Hopfield 还 解释 了 如 何 用 这 种 网 络 来 求解 模式 识别 和 最 优化 问题 。Hopfield 对 他 的 网 络 
提出 的 其 他 一 些 应 用 有 : 按 内 容 寻 址 存储 器 [Hopf82] ，A/D 转换 [TaHo86] 以 及 线性 规划 和 
最 优化 ， 如 货 郎 担 问题 [HoTa85]。 

Hopfield 的 一 个 主要 贡献 是 用 Lyapunov 稳定 原理 来 分 析 他 的 网 络 。 他 同时 证 明 ， 对 于 
高 增益 的 放大 器 ， 他 的 网 络 的 Lyapunov 函数 是 一 个 可 由 网 络 最 小 化 的 二 次 函数 。 这 就 导 至 
了 一 些 设计 过 程 。 设 计 的 思想 是 把 给 定 的 问题 转化 为 一 个 可 由 网 络 求解 的 二 次 函数 最 小 值 问 
题 。 

Hopfield 网 络 是 本 书 中 讨论 的 最 后 一 种 网 络 。 然 而 ， 我 们 并 没有 讨论 完 所 有 重要 的 神经 
网 络 结构 。 在 下 一 章 中 我 们 将 对 你 下 一 步 应 继续 研究 什么 主题 提出 一 些 看 法 。 


参考 文献 


[Ande72] J. Anderson, “A simple neural network generating an interactive memory ， Mathe- 
matical Biosciences, vol. 14, pp. 197 - 220, 1972. 

Anderson 提出 了 联想 存储 器 的 一 种 “线性 联想 器 "模型 。 该 模型 使 用 一 种 推广 的 
Hebb 规则 ， 进 行 训 练 ， 学 习 在 输入 /和 输出 向 量 之 间 建 立 关 联 。 他 主要 强调 了 网 络 的 生 
理学 拟 真 。 在 同一 时 期 Kohonen 发 表 了 与 此 密切 相关 的 论文 [Koho72]。 他 们 两 人 是 独 
立 进行 工作 的 。 

[AnSi77] J. A. Anderson, J. W. Silverstein, S. A. Ritz and R. S. Jones, “Distinctive features, 
Categorical perception, and probability learning: Some applications of a neural model," 
Psychological Review , vol. 84, pp. 413 - 451, 1977. 

这 篇 文章 介绍 “ 盒 中 脑 状 态 " 神 经 网 络 模型 ， 它 将 线性 联想 器 和 递归 连接 结合 起 来 
形成 一 种 更 强 有 力 的 自 联想 系统 。 它 使 用 非 线性 传输 函数 将 网 络 的 输出 限制 在 超 立方 
体 中 。 

[CoGr83] M. A. Cohen and S.Grossberg, "Absolute stability of global pattern formation and 
parallel memory storage by competitive neural networks," IEEE Tronsactions on Systems, 
Man and Cybernetics, vol. 13, no. 5, pp. 815 - 826, 1983. 

Cohen 和 Grossberg 用 LaSalle 的 不 变性 定理 分 析 竞 争 型 神经 网 络 的 稳定 性 。 作 者 对 
网 络 的 描述 是 非常 一 般 化 的 ， 并 展示 如 何 将 他 们 的 分 析 运 用 到 很 多 不 同类 型 的 递归 神 
经 网 络 上 。 

[Gros67] S. Grossberg, “Nonlinear difference - differential equations in prediction and learning 
theory,” Proceedings of the National Academy of Sciences, vol. 58, pp. 1329 - 1334, 
1967. 

这 是 Grossberg 的 一 项 早期 工作 ， 讨 论 了 在 动态 稳定 配置 中 信息 的 存储 。 

( Hopf82] J. J. Hopfield, "Neural networks and physical systems with emergent collective com- 
putational properties,” Proceedings of the National Academy of Sciences, vol. 79, pp. 


2554 - 2558, 1982. 
这 是 最 初 提出 Hopfield 神经 网 络 的 论文 ， 它 标志 着 神经 网 络 领域 研究 工作 的 重新 
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兴起 。 文 章 描述 一 种 具有 按 内 容 寻 址 存储 器 性 能 的 断 续 型 网 络 。Hopfield 阐明 网 络 涉及 
对 特定 Lyapunov 函数 的 最 小 化 。 

' Hopf84] J.J. Hopfield , “Neurons with graded response have collective computational proper- 
ties like those of two — state neurons," Proceedings of the National Academy of Sciences , 
vol. 81, pp. 3088 - 3092, 1984. 

Hopfield 展示 了 一 个 模拟 电路 可 以 作为 一 个 具有 分 级 响应 的 大 型 神经 网 络 的 一 个 功 
能 模型 。 推 导 了 这 个 网 络 的 Lyapunov 函数 并 用 于 设计 按 内 容 寻 址 联想 存储 器 的 网 络 。 

[ HoTa85] J. J. Hopfield and D. W. Tank, “ ‘Neural’ computation of decisions in optimization 
problems ,” Biological Cybernetics, vol. 52, pp. 141 - 154, 1985. 

这 篇 文章 描述 用 Hopfield 网 络 解 决 最 优化 问题 。 货 郎 担 问题 ( 货 郎 旅行 于 若干 城市 
之 间 而 每 个 城市 只 去 一 次 的 总 路 程 达到 最 短 ) 被 映射 到 Hopfield 网 络 。 

[Koho72] T. Kohonen, “Correlation matrix memories, " IEEE Transactions on Computers, 
vol. 21 , pp. 353 - 359, 1972. 

Kohonen 提出 了 一 种 联想 存储 器 的 关联 矩阵 模型 。 该 模型 使 用 外 积 规则 (和 Hebb 
规则 同样 有 名 的 一 个 规则 ) 进 行 训 练 ， 学 习 输 入 /输出 向 量 的 关联 。 他 主要 强调 网 络 的 
数学 结构 。Anderson 也 同时 独立 发 表 了 类 似 的 论文 [Ande72]。 

[LiMi89] J. Li, A. N. Michel and W. Porod, “ Analysis and synthesis of a class of neural net- 
works: Linear systems operating on a closed hypercube,” JEEE Transactions on Circuits 
and Systems, vol. 36, no. 11 , pp. 1405 - 1422, November 1989. 

这 篇 文章 描述 可 在 一 个 闭合 的 超 立方 体 (类 似 Hopfield 网 络 ) 中 由 一 阶 线性 微分 方 
程 定义 的 神经 网 络 。 预 期 的 和 无 用 的 平衡 点 落 在 超 立 方 体 的 角 上 。 作 者 们 讨论 了 使 伪 
平衡 点 数目 达到 最 小 的 设计 过 程 。 

C McPi43] W. McCulloch and W. Pitts, “A logical calculus of the ideas immanent in nervous ac- 
tivity,” Bulletin of Mathematical Biophysics . , vol. 5, pp. 115 - 133, 1943. 

这 篇 文章 引入 了 神经 元 第 一 个 数学 模型 。 在 这 个 模型 中 ,将 输入 信号 的 加 权 和 与 
某 个 阅 值 比较 ， 从 而 确定 神经 元 是 否 激发 。 

f TaHo86] D. W. Tank and J. J. Hopfiled, “Simple ‘neural’ optimization networks: An A/D 
converter, signal decision circuit and a linear programming circuit,” IEEE Transactions on 
Circuits and Systems, vol. 33, no. 5, pp. 533 - 541, 1986. 

作者 描述 了 如 何 设计 Hopfield 网 络 使 其 可 以 解决 特定 的 最 优化 问题 。 其 中 可 以 看 
到 一 个 将 Hopfield 网 络 应 用 到 模 / 数 转换 的 例子 。 
习题 
E18.1 在 18.2.2 节 我 们 举 的 例子 中 ， 增 益 系 数 y= 1.4。 图 18-3 显示 了 那个 例子 的 
Lyapunov 函数 。 高 增益 的 Lyapunov 函数 见 图 18-9。 
(i) 证 明 这 个 例子 中 Lyapunov 函数 的 极 小 值 位 于 满足 ml = nz = f(n) = fn) 
的 那些 点 。( 用 式 (18 .42) 并 把 Y(a) 的 梯度 设 为 0。) 
(ii) 研究 从 Y=0.1 到 Y=10 时 极 小 值 位 置 的 变化 。 
Gii) 对 这 个 区 间 内 的 几 个 不 同 增益 系数 画 出 轮廓 图 。 你 可 能 需要 使 用 MATLAB, 
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E18.2 在 例题 P18.3 中 ， 我 们 使 用 有 监督 的 Hebb 规则 设计 Hopfield 网 络 来 识别 下 面 的 


B s] 


如 果 我 们 使 用 另外 一 个 设计 规则 [LiMing]， 将 得 到 下 面 的 公 值 矩阵 和 偏 置 值 : 


wo 


Ci) 假设 使 用 这 个 权 值 矩阵 和 偏 置 值 ， 画 出 高 增益 的 Lyapunov 函数 轮廓 线 图 。 
(ii) 讨论 这 个 Hopfield 网 络 与 例题 P18.3 中 设计 的 网 络 之 间 的 性 能 差别 。 
(iii) B—*S MATLAB M- 文 件 来 刺激 Hopfield 网 络 。 使 用 ode45 ITH. iB 
出 这 个 网 络 对 于 几 个 不 同 初始 条 件 的 响应 图 。 
E18.3 一 个 Hopfield 网 络 具 有 如 下 高 增益 Lyapunov AŽ: 


V(a) =- F(a)? + 2ajaz + 4(a2)? + 6a, + 1022) 


(i) RAE S (a BBE 
(ii) R V(a) PS BE SARRE. 
(iii) BEE Y(a) 的 轮廓 线 图 。 
(iv) R Y(a) 的 静止 点 。 使 用 LaSalle 不 变性 定理 的 推论 获取 任 一 稳定 点 吸引 区 
的 尽 可 能 多 的 信息 。 
E18.4 在 例题 P18.2 中 我 们 展示 了 Hopfield 网 络 可 用 来 作 A/D 转换 器 。 
(i) 设 输入 值 y=0.5， 画 出 2 位 A/D 转换 器 网 络 的 高 增益 Lyapunov 函数 的 轮 
RRE, 
(ii) 设 y 22.5, EZF GME. 
(ii) 用 (1) 和 (让 小 题 的 结果 来 解释 网 络 是 如 何 运 算 的 。 网 络 可 以 正确 地 进行 A/ 
D 转换 吗 ? 
E18.5 假设 二 进 制 的 原型 向 量 为 


— 


-1 -1 
(i) 设计 一 个 连续 的 Hopfield 网 络 (只 指定 连接 权 值 与 偏 置 值 ) 来 识别 这 些 模式 。 
使 用 Hebb 规则 。 

(ii) 求 高 增益 Lyapunov 函数 的 赫 森 和 矩阵。 其 特征 值 和 特征 向 量 是 什么 ? 
(ai) 假设 增益 系数 很 大 ， 网 络 的 稳定 平衡 点 是 什么 ? 

E18.6 在 习题 E7.7 中 我 们 曾经 问 过 这 样 一 个 问题 一 个 权 值 矩阵 可 以 存储 多 少 原型 模 
式 ? 在 Hopfield 网 络 中 有 同样 的 问题 。 开 始 时 有 两 个 数字 “0" 和 "1"。( 数 字 如 图 
18-17 所 示 。) 每 次 增加 一 个 数字 直到 “6"。 在 每 次 随机 改变 2 个 、4 个 和 6 个 象 素 
后 ， 测 试 一 下 网 络 对 重 构 数字 的 正确 识别 率 。 
Ci) 首先 使 用 Hebb 规则 为 数字 “0” 和 “1 建立 一 个 权 值 和 矩阵 。 然 后 每 个 数字 随 
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机 更 改 两 个 象 素 点 ， 并 加 入 噪声 数字 。 重 复 这 个 过 程 10 次 并 记录 正确 模 
式 (不 含 噪声 ) 的 出 现 率 。 每 个 数字 改变 4 个 象 素 和 6 个 象 素 后 重复 上 述 过 
程 。 然 后 使 用 数字 “0”,，“1” 和 "2" 重复 整个 过 程 。 每 次 一 个 数字 ， 继 续 下 
去 直至 数字 “0” 到 “6” 都 被 使 用 过 。 当 你 完成 了 整个 测试 后 ， 画 出 错误 次 数 
对 存储 数字 数目 百分比 的 三 条 曲线 ， 对 于 2 个 、4 个 和 6 个 象 素 错误 各 有 
一 条 曲线 。 
Cii) 使 用 伪 逆 规则 ( 见 第 7 章 ) 重 复 ( i ) 小 题 ， 并 比较 两 种 规则 的 结果 。 
(ii) 为 了 佐证 使 用 [LiMi89j 中 描述 的 方法 ， 重 复 (i 小 题 。 在 那 篇 论文 中 ， 它 被 
称 为 合成 过 程 5.1。 
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第 19 章 结 R 语 


19.1 目的 

我 们 已 经 讨论 了 多 种 重要 的 神经 网 络 结构 和 学 习 规则 ， 也 解释 了 如 何 将 它们 应 用 于 模式 
识别 ， 函 数 逼 近 ， 自 适应 滤波 等 应 用 方面 。 当 然 ， 在 一 本 书 中 不 可 能 对 每 一 种 重要 的 神经 网 
络 都 进行 很 深 地 讨论 。 神 经 网 络 是 一 个 相当 广阔 而 又 发 展 很 快 的 领域 。 

本 章 将 告诉 你 下 一 步 还 需 研 究 一 些 什么 。 我 们 将 讨论 本 书 中 没有 具体 介绍 的 一 些 网 络 ， 
同时 也 为 你 进一步 阅读 提供 了 一 些 参考 文献 。 


19.2 理论 和 实例 
第 3 章 粗略 地 介绍 了 本 书 中 所 讲述 的 主要 网 络 。 回 忆 一 下 ,第 3 章 提供 了 三 种 神经 网 络 


… 并 把 它们 应 用 到 一 个 简单 的 模式 识别 问题 上 。 这 三 种 网 络 分 别 是 感知 机 、Hamming 网 络 和 


Hopfield 网 络 。 感 知 机 是 一 种 前 馈 网 络 ， 后 来 我 们 又 把 它 推广 到 多 层 感知 机 网 络 。 在 第 4~7 
章 及 第 10 ~ 12 章 中 我 们 讨论 了 前 馈 网 络 (感知 机 ， 线 性 联想 器 ， 自 适应 线性 神经 元 ， 多 层 感 
知 机 )。Hamming 网 络 是 一 种 竞争 网 络 。 在 第 14 ~ 16 章 我 们 提供 了 几 种 竞争 网 络 ( Kohonen 
层 ， 自 组 织 特征 图 ， 学 习 向 量 量 化 器 ，Grossberg 网 络 ，ART 网 络 )。Hopfield 网 络 是 动态 联 
想 存 储 器 网 络 的 一 个 例子 。 第 18 章 讲 述 了 连续 型 的 Hopfield 网 络 。 

本 章 中 我 们 讨论 一 下 前 几 章 没有 详细 讲述 的 一 些 其 他 神经 网 络 。 这 些 网 络 和 我 们 所 讲 过 
的 网 络 有 关 ， 它 们 也 归 人 第 3 章 提出 的 三 类 网 络 一 前 馈 网 络 、 竞 争 网 络 和 动态 联想 存储 器 网 
络 。 我 们 将 提供 一 些 属于 这 三 种 范畴 的 其 他 网 络 。 

除了 讲述 当前 神经 网 络 的 研究 ， 我 们 还 将 探讨 神经 网 络 的 经 典 基础 ， 在 前 几 章 ， 我 们 描 
述 了 在 线性 代数 、 最 优化 和 稳定 性 理论 中 对 神经 网 络 有 贡献 的 一 些 原理 。 本 章 我 们 要 指出 对 
这 一 领域 提供 了 概念 和 算法 的 某 些 其 他 学 科 。 

本 章 最 后 一 节 列 出 了 当前 一 些 神经 网 络 杂 志和 书籍 ， 以 供 进 一 步 深入 学 习 使 用 。 

本 章 其 余部 分 讨论 的 网 络 深奥 难 懂 ， 而 且 即 使 它们 完成 了 ， 很 快 也 会 过 时 。 然 而 我 们 希 
望 这 些 网 络 能 使 你 对 这 个 领域 的 广度 有 所 了 解 ， 并 为 你 继续 深入 研究 网 络 提 供 一 个 起 点 。 


19.2.1 前 馈 和 联想 网 络 


1. 径 向 基本 网 络 
首先 在 求解 多 实 变 量 插值 问题 时 引信 径 向 基本 网 络 。 径 向 基本 函数 (RBF) 网 络 由 两 层 组 


成 。 这 是 典型 的 多 层 网 络 ， 第 一 层 的 神经 元 不 使 用 输入 值 的 加 权 和 及 S. 型 传输 函数 。 相 反 ， 
第 一 层 神 经 元 的 输出 (每 一 个 表示 基本 函数 ) 由 网 络 的 输入 与 基 沙 数 “ 中 心 ”的 距离 决定 。 随 着 
输入 离 中心 的 距离 的 增 大 ， 神 经 元 的 输出 迅速 减 至 零 。RBF 网 络 的 第 二 层 是 线性 的 ， 它 产 
生 第 一 层 输 出 的 加 权 和 。RBF 网 络 具 有 局 部 化 接收 域 ， 因 为 神经 元 只 对 接近 中 心 的 输入 有 
响应 。 这 同 标 准 多 层 网 络 形成 对 照 。 标 准 多 层 网 络 使 用 S 型 函数 建立 全 局 响应 。RBF 比 多 
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层 感知 机 的 训练 要 快 ， 但 是 对 高 维 输入 空间 来 说 ， 需 要 很 多 神经 元 [Power87]、[ BrLo88] 、 
[ MoDa89] [ PoGi90], 

2.CMAC (小 脑 模 型 连接 控制 器 ) 

与 RBF 一 样 ，CMAC 网 络 使 用 具有 局 部 化 接收 域 的 隐 含 单元 。 这 使 学 习 更 有 效 。 
CMAC 由 Albus(1971) 从 小 脑 模 型 发 展 来 的 。 他 把 网 络 应 用 于 机 械 手 的 控制 。CMAC 的 原始 
过 程 是 由 表 查 找 过 程 实现 的 [ Albu], [Albu75]. 

3. 多 项 式 网 络 

在 第 3、4 章 和 第 10 章 我 们 讨论 了 单 层 网 络 的 局 限 。 它 们 只 能 用 来 识别 线性 可 分 的 模 
式 。 在 第 11 章 我 们 可 用 多 层 网 络 来 克服 这 种 局 限 。 多 层 网 络 可 实现 任 一 形状 区 域 的 识别 。 
这 个 问题 的 另 一 种 解决 方案 是 只 用 一 层 但 采用 不 同 的 神经 元 。 神 经 元 不 仅 可 计算 输入 值 的 线 
性 组 合 ， 并 可 计算 更 复杂 的 函数 如 多 项 式 。 下 面 就 是 多 项 式 网 络 的 一 个 例子 。 

函数 链接 网 络 ”函数 链接 网 络 的 神经 元 接收 标准 输入 元 素 的 线性 组 合 加 上 一 个 高 次 项 。 
高 次 项 包括 不 同 输入 元 素 乘积 的 各 种 组 合 。 

数据 处 理 的 成 组 方法 (GMDH) 数据 处 理 的 成 组 方法 (GMDH) 由 A. C. Ivakhnenko 于 
1968 提出 。 网 络 中 每 个 神经 元 只 有 两 个 输入 。 每 个 神经 元 的 输出 是 两 个 输入 的 二 次 多 项 组 
合 。 网 络 的 每 一 层 增加 网 络 创建 的 多 项 式 次 数 [ Ivak71 ]。 

Sigma- Pi 网 络 ”这 个 网 络 是 多 层 感知 机 网 络 的 推广 。 它 将 乘积 项 结合 到 每 一 个 神经 元 
的 净 输 入 上 。 每 一 个 净 输 入 是 加 在 那个 神经 元 上 所 有 信号 的 加 权 和 ， 以 及 选 定 的 这 些 信号 积 
的 加 权 和 [RuMc86] 、[ HeNo95 ]。 

4, 模块 化 网 络 

这 个 网 络 是 具有 局 部 接收 域 网 络 ( 如 RBF 与 CMAC) 和 全 局 网 络 ( 如 多 层 感 知 机 ) 之 间 的 
一 种 折衷 。 它 由 一 系列 专家 网 络 构成 ， 其 中 每 一 个 都 可 以 是 多 层 网 络 ， 再 加 一 -个 门 控 网 络 ， 
后 者 把 专家 网 络 的 输出 汇总 成 整体 输出 [JaJo91a]、[JaJo91bj]。 

5. 自 适应 评价 网 络 

基本 的 自 适应 评价 系统 通常 用 于 控制 系统 。 它 由 两 个 网 络 构成 : 评价 网 络 和 行动 网 络 。 
评价 网 络 的 目的 是 用 来 估计 缺乏 真实 错误 测量 情况 下 系统 的 性 能 。 行 动 网 络 用 来 更 新 来 自 评 
价 网 络 的 信息 。 系 统 使 用 介 于 有 监督 和 无 监督 之 间 的 一 种 强化 学 习 规则 来 训练 。 系 统 虽 不 使 
用 目标 输出 ， 但 是 接收 增强 信号 ， 如 “成 功 " 或 “失败 ”[BaSu83] 、[ Sutt84]。 

6. 反 传 网 络 的 变形 

除 第 12 章 谈 到 的 外 ， 反 传 网 络 还 有 许多 变形 。 这 可 能 是 自 1986 年 以 来 神经 网 络 研究 最 
活跃 的 一 个 领域 。 下 面 我 们 讨论 一 些 较 成 功 的 反 传 网 络 的 变形 。 

Quickprop 过 程 ”Quickprop 是 反 传 的 一 种 启发 式 修改 。 通 过 假设 错误 曲面 是 二 次 的 和 
一 个 权 值 的 导数 独立 于 其 他 权 值 的 导数 决定 步 长 。 

. Rprop 过 程 ” 当 净 输 入 的 大 小 太 大 时 ，S 型 函数 的 导数 太 小 了 。 设 计 Rprop 过 程 就 是 为 
了 克服 这 个 问题 。 这 可 能 引起 性 能 指数 梯度 变 小 ， 即 使 离 极 小 值 点 很 远 。 最 速 下 降 法 产生 很 
小 的 步 长 。 在 Rprop 中 ， 步 长 不 是 梯度 大 小 的 函数 。 如 果 一 个 给 定 权 的 导数 符号 在 几 次 迭代 
中 都 不 变 ， 则 步 长 增 大 。 如 果 导 数 符号 不 断 地 摆动 ， 则 步 长 减 小 。 

级 联 相 关 ”级 联 相 关 学 习 结构 (Fahlman 和 Lebiere, 1990) 是 网 络 增长 过 程 的 一 个 例子 。 
开始 时 没有 隐藏 结 点 ， 并 可 用 LMS 算法 训练 。 网 络 一 次 增加 一 个 隐藏 结 点 。 每 个 隐藏 结 点 
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都 与 输入 结 点 和 先前 的 隐藏 结 点 有 连接 。 每 个 隐藏 结 点 都 连接 到 每 个 输出 结 点 [ FaLe901。 

网 络 修剪 ”如 第 11 章 所 述 ， 神 经 网 络 训练 的 一 个 问题 是 缺乏 一 般 化 。 如果 网 络 有 过 多 
的 参数 ， 它 可 能 会 对 数据 适合 过 度 了 。 当 数据 在 训练 集合 中 时 ， 错 误 可 能 变 得 很 小 ;反之 ， 
当 数 据 在 训练 集合 之 外 时 ， 则 错误 很 大 。 网 络 一 般 化 的 方法 之 一 是 减少 参数 。 网 络 修剪 是 在 
网 络 训练 后 ， 去 掉 一 些 权 值 。 例 子 有 最 佳 脑 损坏 [LeDe90] 和 最 佳 脑 手术 [ HaSt93]. 

规则 化 ” 另 一 种 解决 网 络 过 度 适 合 的 方法 是 对 性 能 指数 增加 一 项 ， 加 大 复杂 性 。 换 句 话 
说 ， 修 改 后 的 性 能 指数 包含 两 部 分 ， 一 部 分 是 误差 平方 的 函数 ， 而 另 一 -部 分 是 网 络 参 数 数目 
(或 它们 的 大 小 ) 的 函数 。 训 练 过 程 试图 用 最 不 复杂 的 网 络 来 使 误差 平方 达到 最 小 值 。 有 两 个 
规则 化 的 例子 : 权 值 减 小 过 程 [Hinto89] 和 权 值 消除 方法 [WeRu91 |, 

停止 训练 ”这 个 过 程 和 规则 化 一 样 是 用 来 使 训练 网 络 更 一 般 化 。 其 思想 是 把 数据 分 为 三 
个 部 分 : 训练 集 、 确 认 集 和 测试 集 。 训 练 集 用 来 计算 梯度 和 决定 权 值 更 新 。 确 认 集 用 来 判断 
什么 时 候 应 停止 训练 。 测 试 集 是 用 来 比较 不 同 网 络 的 性 能 。 当 确认 集中 误差 开始 增加 时 ， 训 
练 即 停止 。 这 使 网 络 不 会 在 训练 集中 过 度 适合 [Sarl95]。 

7. 概率 神经 网 络 

概率 神经 网 络 (PNN ) 是 一 种 标准 的 贝 叶 斯 分 类 器 的 一 种 并 行 实现 。 它 是 一 个 可 用 来 把 
模式 分 类 的 三 层 网 络 。 概 率 神经 网 络 的 标准 形式 是 不 进行 训练 的 。 与 Hamming 网 络 的 方式 
相似 ， 训 练 向 量 仅 变 为 第 一 层 的 权 值 向 量 。 这 种 网 络 的 优势 在 于 不 用 训练 。 但 也 有 不 利之 
处 ， 当 训练 集中 的 向 量 很 多 时 ， 权 值 矩阵 可 能 非常 大 。 如 果 训 练 集 太 大 ， 就 要 进行 一 个 育 类 
运算 来 减少 大 小 [ Spec90]。 

8. 广义 回归 神经 网 络 

与 PNN 一 样 , 广义 回归 神经 网 络 (GRNN) 也 不 需要 重复 训练 过 程 。PNN 用 于 分 类 问 
题 ， 而 GRNN 则 用 于 连续 变量 的 估计 ,就 如 标准 回归 技术 一 样 。 它 与 径 向 基本 洱 数 网 络 和 
CMAC 有 关系 。 它 建立 在 称 为 核心 回归 的 标准 统计 技术 上 的 。 

9, 具有 时 间 延 迟 的 多 层 网 络 

多 层 前 馈 网 络 可 以 逼近 任何 Borel 可 积 函 数 ， 但 不 能 加 入 时 间 独 立 性 。 为 此 ， 一 些 研究 
人 员 提 出 了 把 多 层 感知 机 和 时 间 延 迟 结合 起 来 的 网 络 ， 其 中 有 些 包 括 反馈 连接 。 

时 间 延 时 神经 网 络 ”时 间 延 时 神经 网 络 (TDNN) 是 一 个 多 层 前 馈 网 络 。 每 一 层 的 输出 分 
几 步 存 人 缓冲 区 ， 然 后 再 整个 连 人 下 一 层 。 它 主要 应 用 于 语音 识别 [LaHi88] 、[ WaHa89]. 

有 限 刺激 响应 多 层 感 知 机 “有限 刺激 响应 (FIR) 多 层 感 知 机 是 TDNN 的 推广 。FIR 网 络 
是 一 个 多 层 网 络 ， 每 一 个 权 值 被 一 个 有 限 刺 激 响 应 滤波 器 代替 。 这 个 网 络 首先 被 应 用 于 时 间 
序列 的 预测 [Wan90a]、[Wan90b]、[ Wan94] 。 

管道 式 递归 神经 网 络 ”管道 式 递 归 神 经 网 络 (PPRN ) 由 一 组 模块 构成 。 每 一 个 模块 接收 
适当 延迟 的 输入 信和 号。 每 一 个 模块 是 一 个 全 连结 的 递归 神经 网 络 ， 具 有 一 个 单 输出 神经 元 。 
这 些 模块 按 顺 序 运 算 ， 一 个 模块 的 输出 馈 给 后 面 的 模块 。PPRN 比 TDNN 和 FIR 网 络 更 复 
杂 。 因 为 它 同时 有 前 馈 和 反馈 (递归 ) 连 接 ， 因 而 有 无 限 大 的 存储 空间 。 然 而 ， 网 络 的 模块 化 
能 使 训练 更 有 效 。PPRN 用 于 非 静 态 信和 号 的 自 适应 预测 [ HaLi95]。 

非 线 性 自 回归 移动 平均 网 络 ” 非 线 性 自 回 归 移 动 平均 (NARMA) 网 络 是 建立 在 使 用 时 序 
分 析 和 系统 识别 的 ARMA 模型 基础 上 的 。 它 包含 带 两 输入 集合 的 多 层 网 络 。 第 一 个 集合 包 
括 输入 信号 和 输入 信和 号 的 延迟 值 。 第 二 个 集合 包括 网 络 输出 的 延迟 值 。 这 个 系统 用 于 动态 系 
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统 的 识别 和 控制 以 及 时 间 序 列 的 预测 [ NaPa90 J 。 

Elman 网 络 Elman 网络 是 一 个 两 层 的 网 络 ， 具 有 从 隐藏 层 输出 到 它 的 输入 的 反馈 连 
接 。 反 馈 路 径 使 Elman 网 络 能 学 习 识别 和 产生 有 瞬时 模式 和 空间 模式 [Elma90. 。 

实时 递归 网 络 ”实时 递归 网 络 (RTRN) 的 结构 与 离散 Hopfield 网 络 相似 ， 只 是 它 含 有 隐 
藏 神经 元 。RTRN AAE: 隐藏 层 和 输出 层 。 每 层 都 接收 两 组 输入 。 第 一 组 是 所 有 神经 元 
(包含 隐 含 屋 和 输出 层 神 经 元 ) 输 出 的 延迟 值 。 第 二 组 是 外 部 输入 信和 号。RTRN 加 上 相应 的 
学 习 规 则 可 以 连续 地 运行 和 进行 实时 学 习 。 不 过 这 也 有 不 利之 处 ， 因 为 它 是 全 连接 的 ， 所 以 
需要 很 多 神经 元 和 过 多 的 计算 [WiZi89]。 

10. 带 延 迟 的 多 层 网 络 训练 

前 一 小 节 所 述 的 多 层 网 络 及 其 他 动态 网 络 ， 由 于 时 间 依 赖 性 而 不 能 用 标准 反 传 算法 进行 
正常 训练 。 它 们 需要 用 动态 反 传 算法 。 动 态 反 传 有 两 种 基本 结构 。 一 种 是 沿 时 间 前 进 ， 另 一 
种 则 沿 时间 后 退 。 

沿 时 间 反 传 ” 动 态 网 络 的 沿 时 间 反 传 (BTT) 算 法 是 静态 网 络 反 传 算法 的 扩展 。 它 是 通过 
时 间 方 向 前 展开 网 络 而 导出 的 多 层 反馈 网 络 ， 每 一 个 时 间 步 产生 一 层 。 反 传 过 程 能 有 效 地 沿 
时 间 后 移 。BTT 算法 的 特征 是 较 低 的 计算 代价 和 较 高 的 存储 需求 。 标 准 BTT 算法 不 适合 实 
时 运算 。 因 为 在 梯度 计算 出 来 前 (通过 整个 时 间 序 列 的 反 传 ) ， 每 一 个 时 间 步 的 网 络 输出 都 必 
须 计算 出 来 。(BTT 概念 的 例子 请 见习 题 E11.5.)[RuMc86]、[ Werb90]. 

前 向 扰动 算法 ”前 向 扰动 算法 (也 称 为 实时 递归 学 习 算法 、 灵 人 敏 方法 或 循环 反 传 算法 ) 是 
用 于 实时 运算 的 。 

梯度 每 一 个 向 前 时 间 步 更 新 一 次 。 算 法 的 特点 是 较 高 的 计算 代价 和 较 低 的 存储 需求 。 
(前 向 扰动 概念 的 例子 见 例题 P11.4 和 P11.9。)[WiZi89]、[ NaPa91]. 


19.2.2 竞争 网 络 


1. 对 传 网 络 
对 传 网 络 (CPN) 把 instar 竞争 层 与 outstar 层 结合 起 来 。CPN AAA FRR, Pw BE 


近 或 模式 联想 。 它 把 有 监督 和 无 监督 的 训练 结合 起 来 [Hech87]、[ Hech88]。 

2. 新 认 知 机 

新 认 知 机 是 一 种 层次 结构 的 网 络 ， 也 是 目前 最 复杂 的 网 络 之 一 。 网 络 每 一 层 的 神经 元 仅 
接收 来 自前 一 层 神 经 元 的 局 部 子 集 的 连接 。 新 认 知 机 用 于 模式 识别 ， 尤 其 是 手写 字符 的 识 
别 。 它 对 模式 的 大 小 和 形变 不 敏感 [FuMi83]、[Fuku88]。 


3.ART 网 络 
除了 第 16 章 讨论 的 ART1 外 ，ART 网 络 还 有 许多 变形 。ART1 用 于 二 进 制 模式 的 无 监 


督 的 分 类 。 后 来 的 网 络 被 修改 用 于 模拟 模式 的 识别 ， 有 些 也 包含 有 监督 的 学 习 [ CaGr87]、 
[CaGr90] 、[ CaGrMa92】]、 [CaGrRo91]、[ CaGrRe91]、[CaRo95]。 
19.2.3 动态 联想 存储 器 网 络 

Hopfield 网 络 是 本 书 中 惟一 的 动态 联想 存储 器 网 络 。 下 面 介 绍 文献 中 提出 的 一 些 相 关 的 
网 络 。 
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1. Li- Michel 网 络 

这 类 网 络 可 描述 为 一 个 由 定义 在 闭 超 立方 体 上 的 一 阶 线性 微分 方程 组 的 系统 。 网 络 的 设 
计 过 程 保证 了 假 平 衡 点 尽 可 能 地 少 和 原型 模式 的 吸引 区 尽 可 能 地 大 。 这 些 网 络 与 Hopfield B 
型 密切 相关 ， 设 计 过 程 能 直接 应 用 于 Hopfield 模型 [LiMi89]、[ MIFa90]. 

2.Boltzman 机 

Hopfield 网 络 将 会 收敛 于 Lyapunov 函数 的 局 部 极 小 值 ， 但 并 不 能 保证 它 会 收敛 于 全 局 
极 小 值 。 在 Boltzman 机 中 ， 为 达到 全 局 极 小 值 而 使 用 噪声 。 这 个 技术 被 称 为 模拟 退火 ， 同 
冶金 中 的 退火 相似 。 模 拟 退 火 是 指 一 个 金属 体 被 加 热 到 接近 融化 ， 然 后 按照 指定 的 时 刻 表 慢 
慢 冷 却 。 高 温 引 起 了 温度 搅动 ， 这 使 金属 不 能 在 较 高 的 能 量 状态 凝固 。 在 Boltzman 机 中 ， 
网 络 的 轨迹 被 加 进 噪声 ， 这 样 就 不 会 陷入 局 部 极 小 值 。 噪 声 的 大 小 随时 间 逐 渐 减 小 ， 因 此 网 
络 最 终 可 以 收敛 [GeGe84]、[ AkHi85]。 

3. 双向 联想 存储 器 

双向 联想 存储 器 (BAM) 和 Hopfield 网 络 有 关 ， 它 的 结构 与 ART 结构 有 点 相似 。BAM 
由 两 层 组 成 ， 并 使 用 两 层 之 间 的 向 前 和 向 后 信息 流 ， 执 行 对 存储 的 刺激 -. 响应 联想 信息 的 搜 
索 。 网 络 演化 到 能 量 曲面 的 一 个 局 部 极 小 值 ， 这 是 两 个 模式 共振 的 状态 ， 在 每 一 层 的 输出 有 
一 个 模式 [ Kosk87] 、[ Kosk88 ]。 

4. 盒 中 脑 状 态 模 型 

盒 中 脑 状 态 (BSB) 是 先 于 Hopfield 模型 的 动态 联想 存储 器 模型 。 这 种 离散 模型 是 线性 联 
想 器 的 扩展 。 为 了 使 网 络 响应 在 超 立 方 体内 ， 增 加 了 反馈 和 使 用 饱 合 线性 传输 函数 。 对 高 增 
益 的 Hopfield 网 络 来 说 ， 稳 定点 对 应 于 超 立 方 体 的 角 [ AnSi77]。 


19.2.4 神经 网 络 的 经 典 基础 


神经 网 络 的 许多 技术 与 其 他 研究 领域 提出 的 过 程 密切 相关 。 这 一 点 常常 被 刚 从 事 这 个 领 
域 研究 的 人 员 忽 视 。 在 这 一 小 节 ， 我 们 想 回 顾 一 下 与 神经 网 络 结构 或 学 习 规 则 密切 相关 的 其 
他 学 科 的 思想 。 

1. 统计 学 

很 多 种 神经 网 络 在 功能 上 与 数理 统计 的 一 些 标准 过 程 等 价 。 例 如 ， 单 层 前 馈 网 络 (包括 
函数 链接 神经 网 络 和 和 多项式 神经 网 络 ) 基 本 上 是 推广 的 线性 模型 。 两 层 的 前 馈 网 络 与 投影 寻 
踪 回归 密切 相关 。 概 率 神经 网 络 与 核 判 别 分 析 相 同 。 一 般 回 归 神 经 网 络 与 Nadaraya - Wat- 
son 核 回 归 相 同 。Kohonen 竞争 性 网 络 与 k - 均值 聚 类 分 析 相 似 。Hebb 学 习 与 主 成 分 分 析 密 
切 相 关 [Smit93]、f Sarle94]、[ BaCo94]、[Brid90]、[ MacK92]、[Joll86]、[HwLa94]。 

2. 物理 学 /统计 力学 

一 些 神经 网 络 的 思想 来 自 物理 学 ， 尤 其 是 统计 力学 。 例 如 ，Hopfield 模型 就 是 模仿 统计 
力学 中 磁性 材料 的 伊 辛 自 旋 模 型 。Boltzman 机 建立 在 模拟 退火 原理 的 基础 上 ， 而 这 个 原理 也 
是 来 自 统计 物理 学 文献 [ ShKi72]、[ KiSh78]、[ Pere84]、[ Pere92]. 

3. 生物 学 /心理 学 

神经 网 络 与 生物 学 和 心理 学 中 的 思想 之 间 的 联系 是 显然 的 。 但 是 ， 即 使 整个 神经 网 络 领 
域 都 受到 这 两 门 学 科 的 影响 ， 我 们 也 时 常 跟 不 上 这 些 学 科 的 发 展 , Thom75 ]、[ Gros82 ]、 
[ChSe92]、[ Ande95]。 





19.2.5 参考 书目 和 杂志 


l. 神经 网 络 杂 志 
本 章 所 提供 的 一 些 参 考 文献 可 以 说 只 是 神经 网 络 研究 与 应 用 的 冰山 一 角 。 如 果 需 要 了 解 
当前 神经 网 络 研究 的 一 些 热 门 ， 可 查阅 下 面 一 些 杂 志 。 其 中 一 些 是 专门 研究 神经 网 络 ， 而 另 
一 些 则 覆盖 更 广阔 的 领域 ， 但 对 神经 网 络 研究 非常 重视 。 
。 《应 用 光学 》( Applied Optics) 
。 《生物 学 控制 论 》( Biological Cybernetics) 
。 《认识 科学 》( Cognitive Science) 
。 《联系 科学 》( Connection Science) 
。 (IEEE 电路 与 系统 学 报 》( IEEE Transactions on Circuits and Systems ) 
* (IEEE 神经 网 络 学 报 》( IEEE Transactions on Neural Networks ) 
。 (IEEE 系统 、 人 类 与 控制 论 学 报 》( IEEE Transactions on Systems, Man, and Cy- 
bernetics ) 
。 《神经 系统 国际 杂志 》( International Journal of Neural Systems) 
。 《人 工 神经 网 络 杂 志 》( Journal of Artificial Neural Networks) 
。 《 认 知 神经 科学 杂志 》( Journal of cognitive Neurosciences ) 
。 《神经 科学 杂志 》( Journal of Neurosciences ) 
。 《机 器 学 习 》( Machine Learning) 
。 《网 络 : 神经 系统 计算 》( Networks: Computation in Neural Systems) 
。 《神经 计算 》( Neural Computation ) 
。 《神经 网 络 》( Neural Networks ) 
。 《美国 科学 院 进展 》( Proceedings of the National Academy of Sciences) 
2. 神经 网 络 教科 书 
我 们 在 下 面 列 出 了 一 些 神经 网 络 参考 书目 。 虽 然 我 们 希望 你 能 对 本 书 满意 ， 但 是 要 想 深 
人 了 解 一 个 主题 ， 最 好 能 从 不 同 的 角度 考察 。 下 面 每 一 本 书 都 有 一 些 自己 的 特色 。 
e  (Self-Organization and Associative Memory), 3rd Edition, T. Kohonen, Springer- 
Verlag, 1989. | 
° ( Adaptive Pattern Recognition and Neural Networks), Y.-H. Pao, Addison-Wes- 
ley, 1989. 
° { Neurocomputing) , R. Hecht-Nielsen, Addison-Wesley, 1990. 
* (Introduction to the Theory of Neural Computation), J. Hertz, A. Krogh and R. C. 
Palmer , Addison-Wesley, 1991. 
e (Neural Networks: Algorithms, Applications, and Programming Techniques), J. 
A. Freeman and D. M. Skapura, Addison-Wesley, 1991. 
* (Neural Computing: An Introduction), 2nd Edition, R. Beale and T. Jackson, 
Adam Hilger, 1991. 
。 (Introduction to Artificial Neural Systems) , J. Zurada, West Publishing, 1992. 
* (An Introduction to the Modeling of Neural Networks) , P. Peretto, Cambridge Uni- 
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versity Press, 1992. 

* (Neural Networks and Fuzzy Systems) , B. Kosko, Prentice-Hall, 1992. 

* (Neural Networks for Pattern Recognition.) , A. Nigrin, MIT Press, 1993. 

e Digital Neural Networks), S. Y. Kung, Prentice-Hall, 1993. 

* (Neural Networks for Statistical Modeling), M. Smith, Van Nostrand Reinhold, 1993. 

e (Advanced Methods in Neural Computing), P. D. Wasserman, Van Nostrand Rein- 
hold, 1993. 

* (Neural Networks; A Tutorial), M. Chester, Prentice-Hall, 1993. 

* (Neural Networks for Optimization and Signal Processing), A. Cichocki and R. Un- 
behauen, John Wiley & Sons, 1993. 

。 Neural Networks: A Comprehensive Foundation), S. Haykin, Macmillan, 1994. 

* (Neural Network Principles), R. L. Harvey, Prentice-Hall, 1994. 

* (Fundamentals of Neural Networks: Architectures, Algorithms, and Applica- 
tions), L. Fausett, Prentice-Hall, 1994. 

e (Fundamentals of Artificial Neural Networks), M. H. Hassoun, MIT Press, 1995. 

* (An Introduction to Neural Networks) , J.A. Anderson, MIT Press, 1995. 

* Self-Organizing Maps), T. Kohonen, Springer-Verlag, 1995. 


19.3 ”结束语 


我 们 希望 本 书 有 助 于 传播 神经 网 络 研究 领域 的 一 些 观点 ， 鼓 舞 你 继续 探索 下 去 。 这 个 领 
域 博大 精深 ， 并 且 发 展 迅速 。 在 今后 几 年 里 ， 神 经 网 络 肯定 会 有 许多 新 的 发 展 。 本 书 中 所 讨 
论 的 一 些 概念 已 为 你 继续 探索 打下 了 一 个 坚实 的 基础 。 在 这 一 章 里 ， 我 们 为 你 继续 研究 神经 
网 络 提供 了 一 些 方向 。 
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子 ( 矩 ) 阵 (单个 输入 向 量 p ) 和 全 (和 矩 ) 阵 (所 有 输入 


Sr 和 S"=[S? S" -- Sp] 
反 向 传播 及 其 变形 的 参数 
学 习 速 率 和 动量 
a 和 YY 
学 习 速 率 递 增幅 度 、 道 减 幅度 以 及 改变 的 百分率 
m eS 
HRSA MARSA 
By 
Marquardt BR 
p ILS 
特征 图 术语 
神经 元 之 间 的 距离 
d; - 神经 元 i 和 神经 元 之 间 的 距离 
邻 域 
N;(d) = j di; « d| 
Grossberg 网 络 和 ART 网 络 


加 强 中 心 和 抑制 周围 连接 和 矩阵 








激励 和 抑制 偏 置 值 
+b 和 -b 

时 间 常 数 
E€ 


相对 强度 


P: S 
jc P. RE p= Sp, 
instar 和 outstar 权 值 矩阵 
Wi? 和 w?! 
定向 子 系统 参数 


a, B fllpz g (MRA HE) 
ARTI 学 习 规 则 参数 


Lyapunov 稳定 性 


Lyapunov 函数 
V(a) 

零 导 数 集 、 最 大 不 变 集 和 闭 包 
Z, L fll L? 

有 界 Lyapunov 函数 集 
0, = |a: V(a) » 


Hopfield 网 络 的 参数 


电路 参数 
Ti, C, Ri, Ii, e 
放大 器 增益 
Y 





= 
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简介 


在 本 书 中 ， 我 们 使 用 了 数值 计算 和 可 视 化 软件 包 MATLAB。 但 是 需要 说 明 ， 本 书 并 不 
是 一 定 要 使 用 MATLAB。 书 中 的 计算 机 练习 也 以 采用 任何 编程 语言 实现 。 同 样 ， 演 示 软 件 
( Neural Network Design Demonstration ) 虽 然 有 助 于 理解 本 书 的 内 容 ， 但 它 也 并 不 是 最 关键 
BS. 

到 处 可 用 的 MATLAB 软件 由 于 其 矩阵 /向 量 表示 能 力 以 及 图 形 输出 能 力 ， 是 作 神 经 网 
络 实验 的 便利 环境 。 我 们 以 两 种 不 同 的 方式 使 用 MATLAB。 一 种 是 为 读者 提供 许多 在 
MATLAB 上 实现 的 练习 。 神 经 网 络 的 许多 重要 特征 只 有 在 大 型 问题 中 才 会 体现 出 来 ， 而 这 
些 问题 是 计算 密集 型 的 ， 不 可 能 用 手工 计算 来 求解 。 然 而 ， 如 果 使 用 MATLAB， 不 仅 可 以 
很 快 地 实现 神经 网 络 算法 ， 而 且 也 可 以 方便 地 对 大 型 问题 进行 测试 。 当 然 ， 如 果 没 有 MAT- 
LAB， 也 可 以 使 用 任何 其 他 程序 设计 语言 来 完成 这 些 练习 。 
第 二 种 方法 是 通过 本 书 附带 磁盘 中 的 Neural Network Desigr. Demonstration 软件 
包 来 使 用 MATLAB。 这 些 交互 式 的 演示 说 明 每 一 章 的 重要 概念 。 左 边 的 图 标 表 
示 书 中 对 这 些 演示 的 引用 。 

首先 应 该 将 MATLAB 4.0 或 更 新 的 版 本 ， 或 者 MATLAB 4.0 的 学 生 版 ， 安 装 在 硬盘 的 
目录 名 MATLAB(DOS 计算 机 ) 或 一 个 文件 夹 (MAC 计算 机 ) 下 。 为 了 创建 该 目录 或 一 个 文 
件 夹 ， 完 成 整个 安装 过 程 ， 请 根据 在 MATLAB 文档 中 所 给 出 的 指示 进行 。 请 注意 根据 软件 
安装 向 导 来 设置 路 径 。 有 一 些 演 示 需 要 MathWorks 公司 的 Neural Network Toolbox 1.0 或 其 


更 新 的 版 本 。 
当 这 个 软件 装 人 到 你 的 计算 机 的 MATLAB 目录 下 后 ， 可 以 在 MATLAB 提示 符 下 键 人 


nnd 进入 演示 程序 。 然 后 通过 主 菜单 可 以 很 容易 访问 所 有 的 演示 。 
本 书 共 有 58 个 用 MATLAB 运行 的 演示 。 


演示 文件 概述 

演示 文件 包括 两 个 目录 : NNDESIGN 和 MININNET。 第 一 个 目录 NNDESIGN 包括 所 
有 的 演示 以 及 这 些 演示 所 使 用 的 函数 。 

第 二 个 目录 MININNET 包括 几 个 从 Neural Network Toolbox (NNT) 软 件 中 借用 过 来 的 
关键 函数 。 这 些 函 数 可 以 使 多 数 神经 网 络 演示 在 没有 NNT 的 情况 下 运行 。 但 是 ， 如 果 你 没 
有 NNT 的 话 ， 只 需要 安装 这 个 目录 即 可 。 在 机 器 中 同时 安装 NNT 和 MININNET 目录 ， 还 
可 能 由 于 借用 的 函数 在 机 器 中 存在 多 个 版 本 而 导致 一 些 不 可 预料 的 结果 。 
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演示 程序 的 需求 

许多 演示 既 不 需要 MININNET 目录 的 支持 ， 也 不 需要 Neural Network Toolbox 的 支持 。 
HUE PERSE S MININNET 目录 或 Neural Network Toolbox MEH, “> BOK RM AE Neural 
Network Toolbox 的 支持 。 

本 附录 的 最 后 一 部 分 列 出 了 所 有 的 演示 及 每 个 演示 的 运行 要 求 。 在 安装 了 NNDESIGN 
目录 之 后 ， 你 可 以 在 MATLAB 内 键 人 help nndesign 看 到 同样 的 列表 。 


运行 演示 


你 可 以 在 MATLAB 提示 符 下 直接 键 和 人 各 个 演示 的 名 称 来 运行 这 些 演示 。 键 人 help 
nndesign 可 以 列 出 所 有 供 你 选择 的 演示 列表 。 

另 一 种 方法 是 运行 Neural Network Design 展示 窗口 (nnd) ， 然 后 用 鼠标 点 击 Contents H 
录 ) 按 钮 ， 系 统 将 会 以 图 形 的 方式 显示 Table of Contents 目录 表 )。 在 这 里 你 可 以 使 用 窗口 底 
部 的 按钮 来 选择 章 ， 根 据 弹出 菜单 来 选择 每 一 个 演示 。 
声音 

许多 演示 都 使 用 了 声音 。 在 许多 情况 下 加 入 声音 是 为 了 有 助 于 理解 演示 ， 测 另 一 些 情况 
则 仅仅 是 为 了 增加 演示 的 趣味 性 。 如 果 需 要 将 声音 关 掉 ， 你 可 以 在 MATLAB 中 使 用 下 面 的 
命令 ,那么 所 有 的 演示 都 将 会 静 静 地 运行 ; 

nnsound off 

要 把 声音 打开 ， 可 以 使 用 如 下 命令 : 

mnsound on 

你 可 能 会 注意 到 ， 演 示 在 声音 打开 时 比 声音 关闭 时 的 运行 速度 要 快 一 些 。 直 外 ， 除 非 将 
声音 关闭 ， 否 则 某 些 不 支持 声音 播放 的 机 器 在 声音 打开 时 的 状态 下 可 能 会 出 现 演示 运行 错 
UR. 
演示 列表 


许多 演示 都 跟随 下 面 的 两 个 符号 来 表示 其 运行 所 需要 的 资源 ; 
+ 表示 需要 MININNET 中 的 函数 或 Neural Network Toolbox 的 支持 。 
x 表示 需要 Neural Network Toolbox 的 支持 。 
通用 命令 

nnd - 展示 屏幕 。 

nndtoc - Table of Contents( 目录 表 )。 

nnsound - 打开 、 关 闭 Neural Network Design 演示 的 声音 。 
第 2 章 神经 元 模型 和 网 络 结构 

nnd2nl - 一 个 输入 的 神经 元 演示 。 + 

nnd2n2 - 两 个 输入 的 神经 元 演示 。 + 
第 3 章 一 个 说 明 性 实例 

nnd3pc 一 感知 机 分 类 演示 。 + 
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nnd3hame ~ Hamming 分 类 演示 。 + 
nnd3hope - Hopfield 分 类 演示 。 + 
第 4 章 感知 机 学 习 规 则 
nndádb - 判定 边界 演示 。 + 
nnd4pr - 感知 机 规则 演示 。 + 
第 S$ 章 ”信号 和 权 值 向 量 空间 
nndSgs - Gram - Schmidt 演示 。 
nndSrb - 互 逆 基 演示 。 
第 6 章 神经 网 络 中 的 线性 变换 
nnd6lt - 线性 变换 演示 。 
nnd6eg - 特征 向 量 游戏 。 
37K 有 监督 的 Hebb 学 习 
nnd7sh - 有 监督 的 Hebb 演示 。 
第 8 章 性 能 曲面 和 最 优点 
nnd8tsl - 泰勒 级 数 演示 # 1。 
nnd8ts2 - 泰勒 级 数 演示 # 2。 
nnd8dd - 方向 导数 演示 。 
[63] nnd8qf - 二 次 函数 演示 。 
BOM 性 能 优化 
nnd9sdq - 二 次 函数 最 速 下 降 法 演示 。 
nnd9me - 方法 比较 演示 。 
nnd9nm - 牛顿 法 演示 。 
nnd9sd - 最 速 下 降 法 演示 。 
第 10 童 Widrow-Hoff 学 习 算 法 
nndlOnc - 自 适 应 噪声 消除 演示 。 
nndl0eeg - 脑 电 图 噪声 消除 演示 。 
nndl0le - 线性 模式 分 类 演示 。 
第 11 章 ” 反 传 神经 网 络 
nndllnf - 网 络 功能 演示 。 + 
nndllbc - 反 传 计算 演示 。* 
nndllfa - HŽ OEHR. * 
nndlign 一 一 般 化 演示 。 * 
第 12 章 ” 反 向 传播 算法 的 变形 
nndl2sdl - 最 速 下 降 反 传 演示 #1。* 
nndi2sd2 - 最 速 下 降 反 传 演示 #2。 * 
nndl2mo - 带动 量 的 反 传 演示 。 * 
nndl2vl - 可 变 学 习 速 度 的 反 传 演示 。 * 
nndl2ls - 共 恩 梯度 线性 搜索 演示 。 * 
nndl2eg - 共 元 梯度 反 传 演示 。 > 





nndl2ms - Marquardt 步 演 示 。 * 
nndl2m - Marquardt 反 传 演示 。 * 

第 13 章 ”联想 学 习 
nndi3uh - 无 监督 Hebb iz. + 
nndl3hd - 带 衰减 的 Hebb 演示 。 + 
nndl3edr - 衰减 率 影 响 演示 。 + 
nndl3gis ~ 图 形 化 instar 演示 。 + 
nndi3is - instar 演 示 。 + 
nndl13os - outstar 演示 。 + 

第 14 章 竞争 网 络 
nndl4ce - 竞争 分 类 演示 。+ 
nndldcl - 竞争 学 习 演示 。+ 
nndldfml - 一 维特 征 图 演示 。* 
nndldfm2 - 二 维特 征 图 演示 。 * 
nndl4v1 - LVQ1 演示 。* 
nndl4v2 - LVQ2 演示 。* 

第 15 XX Grossberg 网 络 
nndl5li - 漏 积分 器 演示 。 
nndl5sn - 并 联网 络 演示 。 
nndlSgll - Grossberg 层 1 演示 。 
nndlSgl2 - Grossberg 层 2 演示 。 
nndlSaw - 自 适 应 权 值 演示 。 

第 16 章 自 适应 谐振 理论 
nndl6all - ARTI 层 1 演示。 
nndl6al2 - ARTI 层 2 演示 。 
nndi6os - 定向 子 系统 演示 。 
nndl6al - ARTI 算法 。 

第 17 章 ”稳定 性 
nnd17ds - 动态 系统 演示 。 

第 18 章 Hopfield 网 络 
nndl8hn - Hopfield 网 络 演示 。 
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- 索引 中 的 页 码 为 英文 原 书页 码 ， 书 中 页 边 标 出 原 书页 码 。 


A 


Abbreviated notation (简化 符号 )，2 - 8 
ADALINE network (ADALINE 网 络 )，10 -2 
decision boundary 《判定 边界 )，10 -4 
mean squared error (FRÆ), 10-4 
Adaptive critic ( 自 适 应 评价 )，19 ~ 4 
Adaptive filtering ( 自 适应 滤波 器 ) 10-13 
Adaptive noise cancellation ( 自 适应 噪声 消除 )，10 - 
15 
Adaptive resonance theory ( ART) 
i£), 16-2 
Amacrine cell (无 长 突 细胞 ) 15-4 
Amari, S., 15-2 
AND gate (与 门 )，4-7 
Anderson, J. A., 1-2, 1-3, 13-2, 15-2 
Angle (ABE), 5-7 
Apple and orange example (RAS LH), 3-2 
Hamming network solution (Hamming 网 络 求解 )， 
3-8 
Hopfield solution (Hopfield 求解 )，3 - 12 
perceptron (RAIL), 3-3 
perceptron solution (感知 机 求解 )，3 -5 
problem statement (问题 描述 )，3 -2 
Application of neural network (神经 网 络 的 应 用 )，1 
-5 
aerospace (MLZ), 1-5 
automotive (FA), 1-5 
banking (#277), 1-5 
defense (HB7), 1-6 
electronics (HF), 1-6 
entertainment (#255), 1-6 
financial (BH), 1-6 
insurance (R), 1-6 
manufacturing (制造 )，1-6 
medical (医疗 )，1 -6 


( 自 适应 谐振 理 


oil and gas (石油 和 天 然 气 )，1 - 6 
robotics (机 器 人 )，1-7 
securities 《有 价 证 券 )，1 --7 
speech (18H), 1-7 
telecommunications ( 岂 信 ;，1 -7 
transportation (运输 )，1 -7 
ART network (ART 网 络 )，19 -8 
ARTI 
fast learning (快速 学 习 ) ，16 - 19 
Layer 1 (GB8—J2), 16-4 
Layer 2 (第 二 层 )，16- 10 
learning law (学 习 规 则 ) 
L1- L2, 16-17 
L2- L1, 16-17 
orienting subsystem 〈 定 向 子 系统 )，16 - 13 
resonance (WR), 16-17 
subset/superset dilemma ( F 集 / 超 集 二 难 问 题 )， 
16-17 
summary (小 结 ) 16-21 
vigilance (警戒 )，16 - 15 
ART2, 16-23 
ART3, 16-23 
ARTMAP, 16-23 
Associative learning (联想 学 . 习 ) 
Hebb rule (Hebb 规则 )，7 -4 
instar rule (instar 规则 )，13 - 11 
Kohonen rule (Kohonen 规则 )，13 - 17 
outstar rule (outstar 规则 )，13 - 17 
pseudoinverse rule (ŚM), 7-7 
unsupervised Hebb mle 无 监督 Hebb SLM), 13-5 
Associative memory (联想 存 情 器 )，7- 3 
autoassociative memory ( E KRAER), 7 - 10 
bidirectional associative memory (BAM) (双向 联想 
存储 器 ) 19-9 
Boltzman machine (Boltzman 机 )，19 -9 
brain - state- in - a- box ( 盒 中 脑 状 态 )，19 -9 
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Hopfield network (Hopfield 网 络 ) 18-5 VLBP, 11-12 
Li - Michel network (Li - Michel 网 络 ) 19-9 Backpropagation through time (BTT) (〈 沿 时 间 反 传 )， 
linear associator 《线性 联想 器 )，7 -3 19-7 
Associative network (联想 网 络 ) 13-3 Basis set ( 基 集 )，5- 5 
instar，13 - 9 Batching 〈 批 处 理 ) 12-7 
outstar, 13- 16 Bidirectional associative memory (BAM) (双向 联想 存 
Attractor (RIF), 18-11 fae), 19-9 
Autoassociative memory (〈 自 联想 存储 器 )，7- 10 Biological inspiration of neural network (神经 网 络 的 生 
B 物 学 启示 ) 1-8 ， 
Biology，psychology and neutral network (生物 学 、 心 
Backpropagation ( 反 向 传播 })，11 -7 理学 和 神经 网 络 )，19 - 10 
batching ( 批 处 理 )，12 -7 Bipolar cell ( 双 极 细胞 ) ，15- 3 
CGBP, 12-15 Boltzman machine (Boltzman f), 19-9 
choice of network architecture (网 络 结构 的 选择 )， Brain - state- in- a- box (A PARRA), 19-9 
11-17 | Brightness constancy (亮度 一 致 )，15 -8 
conjugate gradient (JEEE), 12-14 
convergence (收敛 性 )，11 -19 c 
delta ~ bar - delta, 12 - 13 Carpenter, G, 16-2 
drawback (缺点 )，12-3 Cascade - correlation 《级 联 相 关 )，19 - 5 
example (实例 )，11- 14 Cerebellar model articulation controller (CMAC) (小 脑 
generalization GEJ”), 11-21 模型 连接 控制 器 ) 19-3 
initial weight (初始 权 值 )，12 - 6 CGBP, 12-15 
Jacobian matrix (EPJ EERE), 12-23 Chain rule ( 链 法 则 )，11-9 
Levenberg - Marquardt, 12-19, 12-21 Change of basis ( 基 的 变换 ) 6-6 
Jacobian calculation ( 雅 可 比 计算 }，12 - 22 similarity transformation (相似 变换 ) ,6-8 
Marquardt sensitivity (Marquardt 灵敏 性 )，12 - Choice of network architecture (网 络 结构 选择 ) 11 - 
24 7 
LMBP，12 - 25 Circular hollow (环形 空洞 )，8 - 16 
MOBP, 12-11 Competitive learning (竞争 学 习 )，14 -7 
performance index (性 能 指数 )，11 -8 adaptive resonance theory 〈 自 适应 谐振 理论 ) 16- 
performance surface (性 能 曲面 )，12 -3 2 
Quickprop, 12 - 14 ARTI, 16-4 
SDBP, 12-2 ART2, 16- 23 
sensitivity (RATE), 11-10 ART3, 16-23 
summary (小 结 )，11 -13 ARTMAP, 16-23 
SuperSAB, 12- 14 Fuzzy ARTMAP (模糊 ARTMAP), 16-23 
variation (467%), 19-4 instar rule (instar 规则 )，14 -7 
cascade ~ correlation 〈 级 联 相 关 )，19 -5 Kohonen rule (Kohonen 规则 ) ，14 -7 
network pruning (网 络 修剪 )，19 -5 learning rate (学 习 速度 )，14 -9 
Quickprop, 19-4 LVQ2, 14-21 
regularization (规则 化 )，19 -5 problem (H), 14-9 
Rprop, 19-4 Competitive network (竞争 网 络 ) 14-5 


stopped training (停止 训练 )，19 - 5 ARTI, 16-4 
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Grossberg, 15 - 13 

Hamming network (Hamming 网 络 ) 14-3 

lateral inhibition ( 侧 向 抑制 )，14 - 5 

learning vector quantization (学 习 向 量 的 量化 ) 14 


- 16 
self - organizing feature map 〈 自 组 织 特征 图 )，14 
-12 


winner - talk - all (EE 418), 14-5 
Conditioned stimulus (RRR), 13-3 
Cone ( 锥 体 )，15 -3 
Conjugate direction (49E E), 9 - 16 
Conjugate gradient (HRR), 9 ~ 15, 12-14 
golden section search (黄金 分 割 搜索 )，12 - 17 
interval location 《区 间 定 位 )，12 - 16 
interval reduction (区 间 缩 小 )，12 ~ 16 
Content - addressable memory ( 按 内 容 寻 址 存储 器 )， 
18 - 16 
Contour plot (轮廓 线 图 )，8 -8 
Contrast enhancement (对 比 增强 )，15 - 18 
Correlation matrix (XERE), 10-6 
Counterpropagation OU fé), 19-8 


D 


Decay rate (衰减 速度 )，13 -7 
Decision boundary 《判定 边界 ) ,4-5, 10-4, 11-4 
Delay 〈 延 时 )，2- 13 

Delia rule (HÆJ), 7-13, 10-7 
Delta ~ bar ~ delta, 12- 13 

Descent direction (下 降 方向 )，9- 13 

Diagonalization (对 角 化 )，6- 13 

Directional derivative (Jy I8] E, 8-5 

Domain 〈 定 义 域 )，6- 2 


E 


Echo cancellation (回声 消除 ) 10-21 
EEG, 1i- 1$ 

Eigenvalue (AER), 6-10 

Eigenvector (特征 向 量 ) 6-10 

Elliptical hollow 《椭圆 空洞 )，8 ~ 17 

Elman network (Elman 网 络 )，19-7 
Emergent segmentation (应 急切 断 )，15 -6 
Equilibrium point (平衡 点 )，17- 4 
Euclidean space 〈 欧 几 里 德 空间 )，5 -3 


Excitatory (激励 )，15 ~ 10 
F 


Fahlman, A.E., 12- 14 

Feature filing- in (特征 填充 )，15$- 6 

Finite impulse response network (FIR) (有 限 刺 激 响 
应 网 络 ) 19-6 

Forward perturbation algorithm (前 向 扰动 算法 )，19 
-8 

Fovea (MBE), 15-5 

Fukushima, K., 15-2 

Function approximation (函数 逼近 )，11 -4 

Functional link network (功能 链 网 络 ) 19-3 

Fuzzy ARTMAP (模糊 ARTMAP), 16-23 


G 


Ganglion cell (神经 节 细 胞 ) 15-4 
Gauss - Newton algorithm (高 斯 - 牛顿 算法 )，12 - 
21 
Jacobian matrix (SERT HARE), 12-20 
Generalization (EJ), 11-21 
Generalized regression neural network (广义 回归 神经 
网 络 )，19 -6 
Golden section search (黄金 分 割 搜索 )，12 - 17 
Gredient (梯度 )，8 -4 
Gradient descent 《梯度 下 降 法 )，9 -2 
Gram - Schmidt orthogonalization ( Gram - Schmidt 正 
ZAE), 5-8 
Grossberg competitive network (Grossberg 竞争 网 络 )， 
15 - 13 
choice of transfer function (fE #4 PS CB EE dE), 15 
- 20 . 
Layer 1 (第 一 层 )，15- 13 
Layer 2 (38 2), 15-17 
learning law (学 习 规 则 ) , 15-22 
relation to Kohonen law (与 Kohonen 规则 的 关 
X), 15-24 
Grossberg, S., 1-3, 13-2, 15- 2, 16-2 
Group method of data handling (GMDH) (数据 处 理 
的 成 组 方法 )，19 -3 


H 


Hamming network (Hamming W4), 3-8, 14-3 





feedforward layer《 前 馈 层 ),，3 - 8，14- 3 
recurrent layer (GEH), 3-9, 14-4 
Hebb rule (Hebb SEM), 7-4, 18-18 
decay rate (衰减 速度 ) 13-7 
performance analysis (HERES BT), 7-5 
supervised (有 监督 的 ), 7-4, 13-5 
unsupervised (无 监督 的 )，7- 12 
with decay〔 带 衰减 的 )，7 - 12 
Hebb, D. O., 1-3, 7-2 
Hebb's postulate (Hebb 假设 )，7- 2 
Hebbian learning (Hebb 学 习 ), 7-2 
variation (变形 ),，7 -2 
Hessian ( 赫 森 )，8 -5 
eigensystem (特征 系统 )，8 - 13 
Hidden layer (BA), 2-11 
High - gain Lyapunov function (高 增益 Lyapunov PR 
BO), 18-13 
Hinton, G. E. , 11-2 
History of neural network (神经 网 络 的 历史 )，1 -2 
Hoff, M.E., 1-3, 10-2, 11-2 
Hopfield model (Hopfield 模型 )，18 -3 
Hopfield network (Hopfield N28), 3 — 12, 6 - 2, 18 
-5 
attractor (RSI), 18-11 
design (Uit), 18-16 
content - addressable memeoty ( 按 内 容 寻 址 存储 
器 )，18 - 16 
effect of gain (增益 效应 ) ，18 - 12 
example (Ef), 18-7 
Hebb rule (Hebb 规则 )，18 - 18 
high - gain Lyapunov function (高 增益 Lyapunov P8 
EO, 18-13 
Lasalle's invariance theorem (LaSalle 不 变性 定理 )， 
18-7 
Lyapunov function ( Lyapunov PHA), 18-5 
Lyapunov surface (Lyapunov Hig), 18-22 
spurious pattern (PRIR), 18 - 20 
Hopfield, J.J., 1-4 
Horizontal cell KFA), 15-4 
Hubel, D. H. , 14-2, 15- 12 


Illusion (£]J45), 15-4 


€ z) 459 





Inhibitory (WA, 15-10 

Inner product (INTR), 5-6 

Instar, 13-9 

Instar rule (instar MM), 13-11, 14-7 
Integrator (积分 器 ) ，2- 13 

Interval location (区 间 定 位 )，12- 15 
Interval reduction 《区 间 缩 小 ) ，12 — 16 
Invariant set (不 变 集 )，17 - 13 | 


J 


Jacobian matrix (FEB) ERE), 12-20 
Jacobs, R. A. (R.A. REPT EK), 12-13 
Journal (338), 19-10 


K 


Kohonen rule (Kohonen 规则 ) ，13 ~ 15, 14-7 
graphical representation (HEER), 14-7 
Kohonen, T., 1-13, 13-2, 15-2 


L 


LaSalle's corollary (LaSalle 推论 )，17 — 14 


LaSalle's Invariant Theorem (LaSalle 不 变性 定理 )， 


17-13 
invariant set (不 变 集 )，17- 13 
set (R) 
L, 17-13 
Z, 17-12 
Lateral inhibition 〈( 侧 向 抑制 )，14 - 5 
Layer ( 层 )，2-9 
competitive (GEP), 14-5 
problem (JÆ), 14-9 
hidden (ft), 2-11 
output layer ($Æ), 2-11 
superscript 《上 标 ), 2-11 
Le Cun, Y., 11-2 
Leaky integrator (85/2388), 15-9 
Learning rate (42 JÆ), 9-3, 10-8 
competitive learning (API), 14-9 
stable (EHI), 9-6, 10-10 
Learning rule (学 习 规 则 )，4- 2 
ARTI, 16-21 
backpropagation 〈 反 向 传播 )，11- 7 
competitive learning (REPAY), 14-7 
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delta rule ( 增 量规 则 )，7- 13 
Grossberg competitive network ( Crossberg 竞争 网 
$8), 15-22 
Hebb rule (Hebb 规则 )，7 -4 
Hebbian learning (Hebb 学 习 ). 7-2 
learning vector quantization (学 习 向 量 的 量化 )，14 
~ 16 
LMS algorithm (LMS 算 法 )，10-7 
local learning (局 部 学 习 ) 13-5 
perceptron (感知 机 ) + 4- 8, 4-13 
proof of convergence (收敛 性 证 明 ), 4-15 
performance learning (性 能 学 习 )，8 -2 
pseudoinverse rule (IŽ), 7-7 
reinforcement learning (28285527), 4-3 
supervised learning (有 监督 的 学 习 )，4 -3 
unsupervised learning (无 监督 的 学 习 )，4-3 
Widrow - Hoff, 7-13 
Learning vector quantization (LVQ) 《学习 向 量 的 量 
化 )，14- 16 
subclass ( 子 类 )，14- 17 
Levenberg - Marquardt algorithm ( Levenberg - Mar- 
quardt 算法 )，12- 19, 12-21 
Jacobian calculation ( 雅 可 比 计算 )，12 - 22 
Jacobian matrix 〈 雅 可 比 矩 阵 )，12 -~ 20 
Li - Michel network (Li- Michel 网 络 )，19 -9 
Linear associator (线性 联想 器 )，7 - 3 
Linear independence (线性 无 关 )，5 -4 
Linear separability 《线性 可 分 性 )，4 - 19 
Linear transformation (线性 变换 ) 6-2 
change of basis ( 基 变 换 )，6 -6 
domain (定义 域 )，6-6 
matrix representation BEER), 6-3 
change of basis ( 基 变 换 )，6 -6 
range (fash), 6-2 
Linear vector space (线性 向 量 空间 )，S- 2 
LMBP, 12-25 
LMS algorithm (LMS K1£), 10-2, 10-7 
adaptive filtering ( 自 适应 滤波 )，10- 13 
adaptive noise cancellation (A 适应 噪声 消除 )，10 
-15 : 
analysis of convergence (收敛 性 分 析 )，10 -9 
learning rate (学 习 速度 )，10-8 
stable learning rate (稳定 的 学 习 速 度 )，10 - 10 


Local learning (局 部 学 习 )，13 -5 

Long — term memory (LTM) (长 期 记忆 )，15 - 12, 
15 一 22 

LVQ2, 14-21 

Lyapunov function (Lyapunov pea), 17-12 

Lyapunov stability theorem ( Lyapunov 稳定 性 定理 )， 
17 ~ 16 


M 


Mach, E., 1-2 
Marquardt algorithm. ( Marquardt 算法 )，12 - 19 
Marquardt sensitivity (Marquardt RRE), 12-24 
Matrix representation (矩阵 潜 示 )，6- 3 
change of basis ( 基 变 换 )，6-6 
diagonalization (对 角 化 )，6- 13 
McClelland, J. L., 1-4, 11-2 
McCulloch, W.S., 1-3, 4-2 
Mean squared error (HA RÆ), 10-4, 11-8 
Memory (存储 器 ) 
associative (联想 )，7 -3 
autoassociative〈《 自 联想 )，7 - 10 
Mexican — hat function ( WAHE RA), 14-11 
Minima 〈 极 小 点 )，8 -7 
first ~ order condition (一 阶 条 件 )，8 - 10 
global minimum (全 局 极 小 点 )，8 -7 
necessary condition (必要 条 件 )，8 -9 
second - order condition (二 阶 条 件 )，8 - 11 
strong minimum〔 强 极 小 点 )，8 一 7 
sufficient condition (充分 条 件 )，8 - 11 
weak minimum (S84), 8-7 
Minsky, M., 1-3, 4-2 
MOBP, 12-11 
Modular network (模块 化 网 络 )，19 -4 
Momentum (动量 )，12-9，13 -7 
Multilayer perceptron (多 层 感知 机 )， 11-2 


N 


Negative definite matrix (MÆ), 8 - 11 

Negative semidefinite GEff sg), 8-11 

Neighborhood (BIR), 14-12 

Neocognitron (新 认 知 机 )， 19-8 

Network architecture (网 络 结构 )，2- 9 
layer ( 层 )，2-9 





multilayer (多 层 )，2- 10 
Network pruning (网 络 修剪 )，19 - 5 
Neural network journal (神经 网 络 杂 志 )，19 - 10 
Neural network textbook 《神经 网 络 教科 书 ) ，19- 11 
Neural Network Toolbox for MATLAB (MATLAB 的 
Neural Network Toolbox), 1-5 
Neuron model (神经 元 模型 )，2 - 2 
multiple- input neuron (多 输入 神经 元 )，2 - 7 
single - input neuron( 单 输入 神经 元 )，2 - 2 
transfer function (传输 一 数 ) 2-3 
Newton’s method (牛顿 法 )，9 - 10 
Nilsson, N., 14-2 
Noise cancellation (噪声 消除 ) 
adaptive ( 自 适应 ) 10-15 
echo cancellation (回声 消除 )，10 - 21 
Nonlinear autoregressive moving average ( NARMA ) 
network 〈 非 线性 自 回归 移动 平均 网 络 ) 19-7 
Norm (838), 5-7 


O 


On - centeroff — surround (加 强 中 心 /抑制 周围 )，14 
-11, 15-14 
Optic disk〈 光 盘 )，15 - 5 
Optimality 《优化 ) 
first - order condition (一 阶 条 件 )，8- 10 
necessary condition (必要 条 件 )，8 -9 
second — order condition (二 阶 条 件 )，8 - 11 
sufficient condition (充分 条 件 )，8 - 11 
Optimization 《优化 ) 
conjugate gradient (HRE), 9-15, 12-14 
descent direction (下 降 方向 ) 9-3 
Gauss - Newton (高 斯 - 牛顿 法 ) 12-21 
Levenberg - Marquardt (Levenberg - Marquardt 算 
ik), 12-19, 12-21 
Newton’s method (牛顿 法 )，9 - 10 
quadratic termination 《二 次 终结 法 ) 9-15 
steepest descent (最 速 下 降 法 )，9 -2 
stable learning rate (稳定 的 学 习 速 度 )，9 -6 
Oriented receptive field (定向 接受 区 )，15 - 20 
Orienting subsystem (定向 子 系统 )，16- 13 
Orthogonality (EZ), 5-7 
Orthonormal (标准 正 交 )，5 -9 
Outstar，13 -~ 16 
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Outstar rule (outstar 规则 )，13 - 17 


P 


Papert, S., 1-3, 4-2 
Parker, D. B. , 11-2 
Pattern classification (模式 分 类 )，11 -3 
Pavlov, I., 1-2 
Perceptron (感知 机 )，3- 3 
architecture (结构 ) 4-3 
constructing learning rule (构造 学 习 规则 )，4- 10 
decision boundary (判定 边界 ) ，4 -5 
learning rule (学 习 规 则 )，4- 8, 4-13 
proof of convergence 《收敛 性 证 明 ),，4 -15 
multilayer (&/z), 11-2 
multiple - neuron (EH), 4-8 
single - neuron 〈 单 神经 元 )，4 -5 
test problem (测试 问题 )，4 - 9 
training multiple - neuron perceptron (训练 多 神经 
元 感知 机 ) 4-13 
two — input case ( 双 输 入 情况 )，3 -4 
unified learning rule (统一 的 学 习 规 则 )，4 — 12 
Performance index (性 能 指数 )，8- 2, 11-8 
quadratic function (二 次 函数 )，8- 12 
Performance learning (性 能 学 习 ) 8-2 
Pipelined recurrent neural network (PPRN) (流水 线 
递归 神经 网 络 ) ，19 - 6 
Pitts, W.H., 1-3, 4-2 
Polynomial network (多 项 式 网 络 )，19 - 3 
functional link network (功能 链 网 络 )，19 -3 
group method of data handling (GMDH) (数据 处 理 
的 成 组 方法 )，19 - 3 
Sigma - Pi network (Sigma- Pi PI), 19-4 
Positive definite (IES), 17-5 
Positive definite matrix (ERF). 8-11 
Positive semidefinite ( 半 正 定 )，8- 11, 17-5 
Probabilistic neural network (概率 神经 网 络 }，19 -6 
Projection (投影 )，5-8 
Prototype pattern 〈 原 型 模式 )，18 - 16 
Pseudoinverse rule ( 仿 逆 规则 )，7 -7 


Q 


Quadratic function (二 次 函数 )，8- 12 
circular hollow 〈 环 状 空洞 )，8 - 16 
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elliptical hollow (WAZ), 8-17 
Hessian (225) 
eigensystem (特征 系统 )，8 -~ 13 
saddle point (鞍点 )，8- 18 
stationary valley (H8), 8-19 
Quadratic termination (二 次 终结 法 )，9 - 15 
Quickprop, 12- 14, 19-4 


R 


Radial basis network (〈 径 向 基本 网 络 )，19 - 2 

Range ( 值 域 )，6- 2 

Real - time recurrent network (RTRN) (实时 递归 网 
络 )，19-7 

Reciprocal basis vector( 互 逆 基 向 量 )，5 ~ 10 

Recurrent network (递归 网 络 ), 2-13, 2-14, 17- 
2 

Regularization (规则 化 )，19 -5 

Reinforcement learning (增强 学 习 ) ，4- 3 

Resonance (谐振 )，16 - 17 

Retina 〈 视 网 膜 )，15 -3 

Rod ( 杆 状 体 )，15 -3 

Rosenblatt, F. , 1-3, 4-2, 10-2, 11-2, 14-2 

Rosenfeld, E. , 1-2 


Rprop, 19-4 

Rumelhart, D.E., 1-4, 11-2 
S 

Saddle point (#2), 8-8, 8- 18 

SDBP, 12-2 


Self - organizing feature map (SOFM) 〔( 自 组 织 特征 
B), 14-12 
neighborhood (4834), 14- 12 
Sensitivity CR TE), 11-10 
backpropagation 〈《 反 向 传播 )，11- 11 
Set (集合 ) 
L, 17-13 
Z, 17-12 
Shakespeare, W. (W. 莎士比亚 ), 1-5 
Short - term memory (STM) (短期 记忆 )，15 - 12, 
15-17 
Shunting model (并 联 模型 )，15 - 10 
Sigma- pi network (Sigma - pi 4%), 19-4 
Similarity transform 《相似 变换 ),，6 -8 


Spanning a space《 生 成 一 个 空间 ), 5-5 
Spurious pattern 〈 假 模式 )，18 - 20 
Stability 《稳定 性) 
asymptotically stable (MIZE), 17-3, 17-5 
concept (SES), 17-4 
equilibrium point GE), 17-4 
in the sense of Lyapunov (Lyapunov 意义 下 )，17 - 
3, 17-4 
LaSalle's corollary (LaSalle 推论 ) 17 - 14 
LaSalle’s Invariance Theorem (LaSalle 不 变性 定 
HB), 17-13 
Lyapunov function (Lyapunov PREX), 17-12 
Lyapunov stability theorem (Lyapunov 稳定 性 定 
理 )，17-6 
pendulum example ( 单 摆 例 子 ) ，17 -6 
Stability/plasticity dilemma (稳定 性 /可 塑性 二 难 问 
ED, 16-2 
Stationary point (GEAR), 8-10 
minima 〈 极 小 点 )，8- 7 
saddle point (REA), 8-8 
Stationary valley (4), 8- 19 
Statistical physics and neural network (统计 物理 学 和 
神经 网 络 ) 19-10 
Statistics and neural network (统计 学 和 神经 网 络 )， 
19 - 10 
Steepest descent (最 速 下 降 法 )，9- 2 
learning rate (URE), 9-3 
minimizing along a line ( 沿 直 线 最 小 化 )，9 -8 
stable learning rate (FRE HF URE), 9-6 
Stimulus — response (刺激 = 响应 )，13 -2 
conditioned stimulus (FRIM), 13-3 
unconditioned stimulus (AFR), 13-3 
Stopped training (停止 训练 )，19 - 5 
Subclass (FÆ), 14-17 
Subset/superset dilemma (9 /#8 Sis — WEIR} BE), 16 
-17 
SuperTAB, 12-14 
Supervised learning (有 监督 学 习 )，4- 3 
Hebb rule (Hebb 规则 )，7- 4 
performance learning (ERESI), 8-2 
target (HF), 4-3 
training set (训练 集 ) ，4 一 3 





T 


Tapped delay line (〈 抽 头 延 迟 线 )，10- 13 

Target (Bin), 4-3 

Taylor series expansion (泰勒 级 数 展开 )，8 - 2 
vector case (向 量 情形 )，8- 4 

Textbook (教科 书 )，19 - 11 

Time constant (时 间 常 数 )，15 -9 

Time delay neural network (TDNN) (时 间 延 时 神经 

网 络 )，19 - 6 

Tollenaere, T. , 12- 14 

Training set (Ul dE), 4-3 
sequence (序列 )，13 -5 

Transfer function (和 传输 函数 ),，2 -3, 2-6 
competitive (HEF), 2-6 
hard limit (ERR), 2-3, 2-6 
hyperbolic tangent sigmoid ( 双 曲 正切 $ 形 函数 )，2 

-6 

linear (线性 的 ), 2- 4, 2-6 
log - sigmoid (对 数 -S EAH), 2-5, 2-6 
positive linear (IEZ&4E), 2-6 
saturating linear (饱和 线性 )，2 -6 
symmetric saturating linear (对 称 饱 和 线性 )，2 - 6 
symmetrical hard limit (对 称 硬 极限 )，2 - 6 
table (32), 2-6 


U 


Unconditioned stimulus 〈 无 条 件 刺 激 )，13 -3 
Unsupervised learning (无 监督 的 学 习 )，4- 3 
Hebb rule (Hebb 规则 ), 7-4, 13-5 
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V 


Vector expansion (MÆRI), 5-9 
reciprocal basis vector (Hwa (JH), 5 — 10 
Vector space (MEZE), 5-2 
angle (角度 )，5-7 
basis set ( 基 集 )，5 -5 
orthonormal (标准 正 交 ), 5-9 
projection (投影 ),，5 -8 
spanning (42M), 5-5 
vector expansion (HERF), 5-9 
Vigilance (警戒 ) 16-15 
Vision (#23), 15-3 
Vision normalization (视觉 规格 化 )，15 -8 
Visual cortex (视觉 皮层 )，15 -4 
VLBP, 12- 12 
von der Malsburg, C. , 14-2, 15 - 12 


Ww 


Weight indiex (BR Fix), 2-7 
Weight matrix (URRE), 2-7 
Werbos, P.J., 11-2 
Widrow, B., 1-3, 10-2, 11-2 
Widrow - Hoff algorithm ( Widrow - Hoff 1E), 7- 
13, 10-7 
adaptive filtering ( 自 适应 滤波 ) 10-13 
Wiesel, T., 14—2, 15- 12 
Williams, R. J., 11-2 
Winner- talk ~ all ( 胜 者 全 得 )，14- 5 
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